为什么这个浮点运算编译得如此奇怪(没有优化)?
Why is this floating point arithmetic compiled so strangely (without optimization)?
我使用 0 级和 3 级优化编译了以下函数
g++
版本 4.7.2 20120921
:
double function1(double a, double b)
{
return (a+b)*(a+b);
}
0级优化版反汇编提供:
0000000000000000 <_Z9function1dd>:
0: 55 push rbp
1: 48 89 e5 mov rbp,rsp
4: f2 0f 11 45 f8 movsd QWORD PTR [rbp-0x8],xmm0
9: f2 0f 11 4d f0 movsd QWORD PTR [rbp-0x10],xmm1
e: f2 0f 10 45 f8 movsd xmm0,QWORD PTR [rbp-0x8]
13: 66 0f 28 c8 movapd xmm1,xmm0
17: f2 0f 58 4d f0 addsd xmm1,QWORD PTR [rbp-0x10]
1c: f2 0f 10 45 f8 movsd xmm0,QWORD PTR [rbp-0x8]
21: f2 0f 58 45 f0 addsd xmm0,QWORD PTR [rbp-0x10]
26: f2 0f 59 c1 mulsd xmm0,xmm1
2a: f2 0f 11 45 e8 movsd QWORD PTR [rbp-0x18],xmm0
2f: 48 8b 45 e8 mov rax,QWORD PTR [rbp-0x18]
33: 48 89 45 e8 mov QWORD PTR [rbp-0x18],rax
37: f2 0f 10 45 e8 movsd xmm0,QWORD PTR [rbp-0x18]
3c: 5d pop rbp
3d: c3 ret
3 级优化提供:
0000000000000000 <_Z9function1dd>:
0: f2 0f 58 c1 addsd xmm0,xmm1
4: f2 0f 59 c0 mulsd xmm0,xmm0
8: c3 ret
在未优化的版本中,为什么代码做了这么多额外的工作?具体是什么导致了mulsd
之后的4条指令?他们所做的只是将 xmm0
移动到内存,从内存移动到 rax
然后回到内存然后再回到 xmm0
。
这是编译器认为它在做什么的一种可能的观点。
非优化编译器对事物采取非常局部的观点。它不会展望下一步要做什么。它可能正在使用一组非常有限的操作。例如,它似乎将其某些工作传输限制在 stack 和 xmm0 之间,或 stack 和 rax 之间。
一刀切方法的另一个方面是,如果在某些情况下需要做某事,它往往会一直完成。特别是,某些函数需要足够的寄存器来要求将参数和中间结果保存到堆栈中。优化编译器只会在必要时这样做。非优化编译器无条件地执行它。
0000000000000000 <_Z9function1dd>:
// Push the stack
0: 55 push rbp
1: 48 89 e5 mov rbp,rsp
// Save the parameters to stack temporaries
4: f2 0f 11 45 f8 movsd QWORD PTR [rbp-0x8],xmm0
9: f2 0f 11 4d f0 movsd QWORD PTR [rbp-0x10],xmm1
// Load the temporary representing a into register xmm1, via xmm0
e: f2 0f 10 45 f8 movsd xmm0,QWORD PTR [rbp-0x8]
13: 66 0f 28 c8 movapd xmm1,xmm0
// Add the temporary representing b leaving (a+b) in xmm1
17: f2 0f 58 4d f0 addsd xmm1,QWORD PTR [rbp-0x10]
// Load the temporary representing a into xmm0
1c: f2 0f 10 45 f8 movsd xmm0,QWORD PTR [rbp-0x8]
// Add the temporary representing b, leaving (a+b) in xmm0
21: f2 0f 58 45 f0 addsd xmm0,QWORD PTR [rbp-0x10]
// Multiply (a+b)*(a+b)
26: f2 0f 59 c1 mulsd xmm0,xmm1
// Store the multiply result in a stack temporary
2a: f2 0f 11 45 e8 movsd QWORD PTR [rbp-0x18],xmm0
// Load the return value into rax
2f: 48 8b 45 e8 mov rax,QWORD PTR [rbp-0x18]
// Move the return value to xmm0 via a stack temporary
33: 48 89 45 e8 mov QWORD PTR [rbp-0x18],rax
37: f2 0f 10 45 e8 movsd xmm0,QWORD PTR [rbp-0x18]
// and return
3c: 5d pop rbp
3d: c3 ret
我使用 0 级和 3 级优化编译了以下函数
g++
版本 4.7.2 20120921
:
double function1(double a, double b)
{
return (a+b)*(a+b);
}
0级优化版反汇编提供:
0000000000000000 <_Z9function1dd>:
0: 55 push rbp
1: 48 89 e5 mov rbp,rsp
4: f2 0f 11 45 f8 movsd QWORD PTR [rbp-0x8],xmm0
9: f2 0f 11 4d f0 movsd QWORD PTR [rbp-0x10],xmm1
e: f2 0f 10 45 f8 movsd xmm0,QWORD PTR [rbp-0x8]
13: 66 0f 28 c8 movapd xmm1,xmm0
17: f2 0f 58 4d f0 addsd xmm1,QWORD PTR [rbp-0x10]
1c: f2 0f 10 45 f8 movsd xmm0,QWORD PTR [rbp-0x8]
21: f2 0f 58 45 f0 addsd xmm0,QWORD PTR [rbp-0x10]
26: f2 0f 59 c1 mulsd xmm0,xmm1
2a: f2 0f 11 45 e8 movsd QWORD PTR [rbp-0x18],xmm0
2f: 48 8b 45 e8 mov rax,QWORD PTR [rbp-0x18]
33: 48 89 45 e8 mov QWORD PTR [rbp-0x18],rax
37: f2 0f 10 45 e8 movsd xmm0,QWORD PTR [rbp-0x18]
3c: 5d pop rbp
3d: c3 ret
3 级优化提供:
0000000000000000 <_Z9function1dd>:
0: f2 0f 58 c1 addsd xmm0,xmm1
4: f2 0f 59 c0 mulsd xmm0,xmm0
8: c3 ret
在未优化的版本中,为什么代码做了这么多额外的工作?具体是什么导致了mulsd
之后的4条指令?他们所做的只是将 xmm0
移动到内存,从内存移动到 rax
然后回到内存然后再回到 xmm0
。
这是编译器认为它在做什么的一种可能的观点。 非优化编译器对事物采取非常局部的观点。它不会展望下一步要做什么。它可能正在使用一组非常有限的操作。例如,它似乎将其某些工作传输限制在 stack 和 xmm0 之间,或 stack 和 rax 之间。
一刀切方法的另一个方面是,如果在某些情况下需要做某事,它往往会一直完成。特别是,某些函数需要足够的寄存器来要求将参数和中间结果保存到堆栈中。优化编译器只会在必要时这样做。非优化编译器无条件地执行它。
0000000000000000 <_Z9function1dd>:
// Push the stack
0: 55 push rbp
1: 48 89 e5 mov rbp,rsp
// Save the parameters to stack temporaries
4: f2 0f 11 45 f8 movsd QWORD PTR [rbp-0x8],xmm0
9: f2 0f 11 4d f0 movsd QWORD PTR [rbp-0x10],xmm1
// Load the temporary representing a into register xmm1, via xmm0
e: f2 0f 10 45 f8 movsd xmm0,QWORD PTR [rbp-0x8]
13: 66 0f 28 c8 movapd xmm1,xmm0
// Add the temporary representing b leaving (a+b) in xmm1
17: f2 0f 58 4d f0 addsd xmm1,QWORD PTR [rbp-0x10]
// Load the temporary representing a into xmm0
1c: f2 0f 10 45 f8 movsd xmm0,QWORD PTR [rbp-0x8]
// Add the temporary representing b, leaving (a+b) in xmm0
21: f2 0f 58 45 f0 addsd xmm0,QWORD PTR [rbp-0x10]
// Multiply (a+b)*(a+b)
26: f2 0f 59 c1 mulsd xmm0,xmm1
// Store the multiply result in a stack temporary
2a: f2 0f 11 45 e8 movsd QWORD PTR [rbp-0x18],xmm0
// Load the return value into rax
2f: 48 8b 45 e8 mov rax,QWORD PTR [rbp-0x18]
// Move the return value to xmm0 via a stack temporary
33: 48 89 45 e8 mov QWORD PTR [rbp-0x18],rax
37: f2 0f 10 45 e8 movsd xmm0,QWORD PTR [rbp-0x18]
// and return
3c: 5d pop rbp
3d: c3 ret