在嵌套 for 循环中插入 OpenMP pragma 的最佳方法

Best way to insert OpenMP pragms in nested for loops

我想用简单的例子来解释我的问题陈述[我想这是图像处理中的常见问题]。 假设我嵌套了 for 循环 ocde,如下所示:

for(int bs=0;bs<2;bs++){
    for(int c=0;c<3;c++){
        for(int h=0;h<227;h++){
            for(int w=0;w<227;w++){
                //Element index calculation
                int eleIdx=bs*3*300*300+c*300*300+h*300+w;
                // Here arr is raw buffer
                arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
            }
        }
    }
}

并行化上述代码的最佳选择是什么?以下是我正在考虑的选项?

  1. 在外 bs index or loop.
  2. 添加 #pragma omp parallel for collapse(4)
  3. 在内部 h index for loop 上添加 #pragma omp parallel for collapse(2)

哪个更好?请告诉我这背后的原因。

What are the best options to parallelize the above code? Below are the options that I'm thinking of?

Adding #pragma omp parallel for collapse(4) on the outer bs index or loop. Adding #pragma omp parallel for collapse(2) on the inner h index for loop.

正如@Gilles 已经指出的那样,这取决于很多因素。例如,与非崩溃子句相比,崩溃子句增加了额外的计算,因为在线程之间分配迭代的启发式更复杂。而且,崩溃的级别越高,开销就越高。但一直分析就是答案。

理想情况下,您应该遵循 @Gillies 发布的答案的建议。但是,如果这不可能,您可以做的是摆脱前两个循环,应用循环展开,然后使用 #pragma omp parallel for#pragma omp parallel for collapse(2),无论哪种都能产生最佳结果。或者简单地交换循环,这样迭代次数少的是最内层的:

这种方法的一个例子:

#pragma omp parallel for collapse(2)
for(int h=0;h<227;h++){
    for(int w=0;w<227;w++){
        for(int bs=0;bs<2;bs++){
            for(int c=0;c<3;c++){
                int eleIdx=bs*3*300*300+c*300*300+h*300+w;
                arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
            }
        }
    }
}