使用结果浮点数时出现 SSE SIMD 分段错误

Question

我正在尝试使用 Intel Intrinsics 在 float 数组上快速执行操作。操作本身似乎运行良好；但是，当我尝试将操作结果放入标准 C 变量时，我得到了 SEGFAULT。如果我注释掉下面指示的行，程序就会运行。如果我保存指示行的结果，但不以任何方式操作它，程序运行正常。只有当我尝试（以任何方式）与 _mm_cvtss_f32(C) 的结果交互时，我的程序才会崩溃。有什么想法吗？

float proc(float *a, float *b, int n, int c, int width) {
    // Operation: SUM: (A - B) ^ 2
    __m128 A, B, C;
    float total = 0;
    for (int d = 0, k = 0; k < c; d += width, k++) {
        for (int i = 0; i < n / 4 * 4; i += 4) {
            A = _mm_load_ps(&a[i + d]);
            B = _mm_load_ps(&b[i + d]);
            C = _mm_sub_ps(A, B);
            C = _mm_mul_ps(C, C);
            C = _mm_hadd_ps(C, C);
            C = _mm_hadd_ps(C, C);
            total += _mm_cvtss_f32(C); // SEGFAULT HERE
        }
        for (int i = n / 4 * 4; i < n; i++) {
            int diff = a[i + d] - b[i + d];
            total += diff * diff;
        }
    }
    return total;
}

Answer 1

你确定你的程序真的在你引用的指令处崩溃了，或者如果你删除 _mm_cvtss_f32() 行（它没有任何其他可见的副作用）？潜在的失败原因是 a 和 b 数组的对齐不正确，因为您使用的是对齐的加载指令。你确定它们是 16 字节对齐的吗？在当代 Intel 硬件上，16 字节对齐和未对齐加载之间的性能差异非常小（有关该问题的讨论，请参阅上述问题的评论）。

我在原来的评论中提到 movaps 的编码比 movups 短。 这是不正确的。 我想的不是 movaps 与 movapd，它们执行相同的内存传输，只是它们被标记为用于单精度和双精度数据，分别。实际上，他们做同样的事情，但 movaps 的编码更短。

使用结果浮点数时出现 SSE SIMD 分段错误

SSE SIMD Segmentation Fault when using resulting float

c

sse

intel

intrinsics

segmentation-fault