为 ARM 减少 clang 生成的代码大小

Reduce clang-generated code size for ARM

我比较了 clang 生成的代码和 gcc 为 arm 生成的代码。

不幸的是,gcc 的代码更多的是指令较少。 我只是好奇 - 是否可以减少 clang 生成的代码? 也许我应该使用一些选项来做到这一点......

请考虑一个非常简单的例子:

> cat test.c
int to_upper(int c)  
{  
   if(c < 'a' || c > 'z') return c; 
   else return c - ('a' - 'A');  
}

> clang -target arm-none-eabi -Oz -c -mthumb -mcpu=cortex-m0 -msoft-float ./test.c -o ./clang_test.o 
> /usr/bin/arm-none-eabi-gcc -Os -c -mthumb -mcpu=cortex-m0 -msoft-float ./test.c -o ./gcc_test.o 

> /usr/bin/arm-none-eabi-objdump -d ./clang_test.o 
./clang_test.o:     file format elf32-littlearm 
Disassembly of section .text: 
00000000 <to_upper>: 
   0:   4602        mov r2, r0 
   2:   3a61        subs    r2, #97 ; 0x61 
   4:   4601        mov r1, r0 
   6:   3920        subs    r1, #32 
   8:   2a19        cmp r2, #25 
   a:   d800        bhi.n   e <to_upper+0xe>
   c:   4608        mov r0, r1 
   e:   4770        bx  lr 

> /usr/bin/arm-none-eabi-objdump -d ./gcc_test.o 
./gcc_test.o:     file format elf32-littlearm 
Disassembly of section .text: 
00000000 <to_upper>: 
   0:   1c03        adds    r3, r0, #0 
   2:   3b61        subs    r3, #97 ; 0x61 
   4:   2b19        cmp r3, #25 
   6:   d800        bhi.n   a <to_upper+0xa>
   8:   3820        subs    r0, #32 
   a:   4770        bx  lr 

这么简单的代码为什么会有这么大的差异? 在这种情况下 clang 可以生成更少的代码吗?至少作为 gcc?

注意:如果我们将cpu改为-mcpu=cortex-a5(其他选项不变),那么clang ang gcc会产生 完全相同的代码:

00000000 <to_upper>: 
   0:   f1a0 0361 sub.w r3, r0, #97 ; 0x61 
   4:   2b19        cmp r3, #25 
   6:   bf98        it  ls 
   8:   3820        subls   r0, #32 
   a:   4770        bx  lr 

OS: Ubuntu 14.04.3

clang 版本 3.7.1 (tags/RELEASE_371/final) 目标:x86_64-unknown-linux-gnu 线程模型:posix

arm-none-eabi-gcc (4.8.2-14ubuntu1+6) 4.8.2

不,clang 在这种情况下不能生成更少的代码。还有许多其他人。

从历史上看,在 LLVM 中实现的代码大小优化非常少。在优化代码大小时,GCC 通常明显优于 LLVM。

Here presentation,仔细研究了 GCC 和 Clang 在代码大小优化方面的比较。

Presentation video