gcc x86 Windows 堆栈对齐

gcc x86 Windows stack alignment

我正在编写一个编译器纯粹是一种学习体验。我目前正在通过编译简单的 C++ 代码来学习堆栈帧,然后研究 gcc 4.9.2 为 Windows x86.

生成的输出 asm

我的简单 C++ 代码是

#include <iostream>

using namespace std;

int globalVar;

void testStackStuff(void);
void testPassingOneInt32(int v);
void forceStackFrameCreation(int v);

int main()
{
  globalVar = 0;

  testStackStuff();

  std::cout << globalVar << std::endl;
}

void testStackStuff(void)
{
  testPassingOneInt32(666);
}

void testPassingOneInt32(int v)
{
  globalVar = globalVar + v;

  forceStackFrameCreation(v);
}

void forceStackFrameCreation(int v)
{
  globalVar = globalVar + v;
}

好的,当它用 -mpreferred-stack-boundary=4 编译时,我期待看到一个堆栈对齐到 16 字节(技术上它对齐到 16 字节但有额外的 16 字节未使用堆栈 space). gcc 生成的 main 的序言是:

22                      .loc 1 12 0
23                      .cfi_startproc
24 0000 8D4C2404        lea ecx, [esp+4]
25                      .cfi_def_cfa 1, 0
26 0004 83E4F0          and esp, -16
27 0007 FF71FC          push    DWORD PTR [ecx-4]
28 000a 55              push    ebp
29                      .cfi_escape 0x10,0x5,0x2,0x75,0
30 000b 89E5            mov ebp, esp
31 000d 51              push    ecx
32                      .cfi_escape 0xf,0x3,0x75,0x7c,0x6
33 000e 83EC14          sub esp, 20
34                      .loc 1 12 0
35 0011 E8000000        call    ___main
35      00
36                      .loc 1 13 0
37 0016 C7050000        mov DWORD PTR _globalVar, 0
38                      .loc 1 15 0
39 0020 E8330000        call    __Z14testStackStuffv

第 26 行将 esp 舍入到最近的 16 字节边界。

第 27、28 和 31 行总共将 12 个字节压入堆栈,然后

第 33 行从 esp 中减去另外 20 个字节,总共 32 个字节!

为什么?

第 39 行然后调用 testStackStuff。

注意 - 此调用推送 return 地址(4 个字节)。

现在,让我们看一下 testStackStuff 的序言,请记住堆栈现在距离下一个 16 字节边界更近 4 个字节。

67 0058 55              push    ebp
68                      .cfi_def_cfa_offset 8
69                      .cfi_offset 5, -8
70 0059 89E5            mov ebp, esp
71                      .cfi_def_cfa_register 5
72 005b 83EC18          sub esp, 24
73                      .loc 1 22 0
74 005e C704249A        mov DWORD PTR [esp], 666

第 67 行再推送 4 个字节(现在向边界推送 8 个字节)。

第 72 行减去另外 24 个字节(总共 32 个字节)。

此时,堆栈现在已在 16 字节边界上正确对齐。但为什么是 2 的倍数?

如果我将编译器标志更改为 -mpreferred-stack-boundary=5 我希望堆栈对齐到 32 字节,但 gcc 似乎再次生成对齐到 64 字节的堆栈帧,是我预期的两倍。

主要序言

23                      .cfi_startproc
24 0000 8D4C2404        lea ecx, [esp+4]
25                      .cfi_def_cfa 1, 0
26 0004 83E4E0          and esp, -32
27 0007 FF71FC          push    DWORD PTR [ecx-4]
28 000a 55              push    ebp
29                      .cfi_escape 0x10,0x5,0x2,0x75,0
30 000b 89E5            mov ebp, esp
31 000d 51              push    ecx
32                      .cfi_escape 0xf,0x3,0x75,0x7c,0x6
33 000e 83EC34          sub esp, 52
34                      .loc 1 12 0
35 0011 E8000000        call    ___main
35      00
36                      .loc 1 13 0
37 0016 C7050000        mov DWORD PTR _globalVar, 0
37      00000000 
37      0000
38                      .loc 1 15 0
39 0020 E8330000        call    __Z14testStackStuffv

第 26 行将 esp 舍入到最近的 32 字节边界

第 27、28 和 31 行总共将 12 个字节压入堆栈,然后

第 33 行从 esp 中减去另外 52 个字节,总共得到 64 个字节!

testStackStuff 的序幕是

66                      .cfi_startproc
67 0058 55              push    ebp
68                      .cfi_def_cfa_offset 8
69                      .cfi_offset 5, -8
70 0059 89E5            mov ebp, esp
71                      .cfi_def_cfa_register 5
72 005b 83EC38          sub esp, 56
73                      .loc 1 22 0

(堆栈上的 4 个字节来自)调用 __Z14testStackStuffv

(堆栈上的 4 个字节来自)push ebp

(堆栈上的 56 个字节来自)sub esp,56

共 64 个字节。

有谁知道 gcc 为什么要创建这个额外的堆栈 space 还是我忽略了一些明显的东西?

感谢您提供的任何帮助。

为了解开这个谜团,您需要查看 gcc 的文档以找出它使用的 Application Binary Interface (ABI) 的确切风格,然后去找到那个 ABI 的规范并阅读它。如果你是"in the process of writing a compiler purely as a learning experience",你肯定需要它。

简而言之,从广义上讲,ABI 要求当前函数保留这个额外的 space,以便将参数传递给当前函数调用的函数。保留多少 space 的决定主要取决于函数打算执行的参数传递量,但它比这更细微,ABI 是详细解释它的文档

在老式的栈帧中,我们会PUSH个参数入栈,然后调用一个函数。

在新风格的堆栈帧中,EBP 不再使用,(不知道为什么它被保留并从 ESP 复制,)参数被放置在堆栈中相对于 [=11= 的特定偏移量],然后调用该函数。 mov DWORD PTR [esp], 666 用于将 666 参数传递给调用 testPassingOneInt32(666);.

的事实证明了这一点

为什么要执行 push DWORD PTR [ecx-4] 来复制 return 地址,请参阅 。 IIRC,它正在构建 return-address / saved-ebp 对的完整副本。


but again gcc seems to produce stack frames aligned to 64 bytes

不,它使用了and esp, -32。堆栈帧大小看起来像 64 字节,但它的对齐只有 32B。

我不确定为什么它会在堆栈帧中留下这么多额外的 space。猜测为什么 gcc -O0 会做它所做的事情并不是很有趣,因为它甚至没有试图做到最佳。

你显然没有优化编译,这让整个事情变得不那么有趣了。这会告诉您更多有关 gcc 内部结构的信息以及 gcc 的便利之处,而不是它发出的代码是必要的或做任何有用的事情。此外,使用 http://gcc.godbolt.org/ 可以在没有 CFI 指令和其他干扰的情况下获得良好的 asm 输出。 (请用输出整理问题中的 asm 代码块。所有噪音使它们更难阅读。)