GCC ARM 性能下降
GCC ARM Performance drop
我偶然发现了 GCC 的一个非常奇怪的问题。问题是性能下降 25%。这是故事。
我有一个 fp32 计算密集型软件(使用 TVM 编译的神经网络)。我为 ARM(rk3399 设备)编译它,这里是信息:
gcc -v
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/lib/gcc/arm-linux-gnueabihf/5/lto-wrapper
Target: arm-linux-gnueabihf
Configured with: ../src/configure -v --with-pkgversion='Ubuntu/Linaro 5.4.0-6ubuntu1~16.04.12' --with-bugurl=file:///usr/share/doc/gcc-5/README.Bugs --enable-languages=c,ada,c++,java,go,d,fortran,objc,obj-c++ --prefix=/usr --program-suffix=-5 --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --with-sysroot=/ --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-gnu-unique-object --disable-libitm --disable-libquadmath --enable-plugin --with-system-zlib --disable-browser-plugin --enable-java-awt=gtk --enable-gtk-cairo --with-java-home=/usr/lib/jvm/java-1.5.0-gcj-5-armhf/jre --enable-java-home --with-jvm-root-dir=/usr/lib/jvm/java-1.5.0-gcj-5-armhf --with-jvm-jar-dir=/usr/lib/jvm-exports/java-1.5.0-gcj-5-armhf --with-arch-directory=arm --with-ecj-jar=/usr/share/java/eclipse-ecj.jar --enable-objc-gc --enable-multiarch --enable-multilib --disable-sjlj-exceptions --with-arch=armv7-a --with-fpu=vfpv3-d16 --with-float=hard --with-mode=thumb --disable-werror --enable-multilib --enable-checking=release --build=arm-linux-gnueabihf --host=arm-linux-gnueabihf --target=arm-linux-gnueabihf
Thread model: posix
gcc version 5.4.0 20160609 (Ubuntu/Linaro 5.4.0-6ubuntu1~16.04.12)
uname -a
Linux FriendlyELEC 4.4.143 #1 SMP Tue Nov 20 11:10:11 CST 2018 aarch64 aarch64 aarch64 GNU/Linux
lscpu
Architecture: aarch64
Byte Order: Little Endian
CPU(s): 6
On-line CPU(s) list: 0-5
Thread(s) per core: 1
Core(s) per socket: 3
Socket(s): 2
Model name: ARMv8 Processor rev 2 (v8l)
CPU max MHz: 1800.0000
CPU min MHz: 408.0000
Hypervisor vendor: horizontal
Virtualization type: full
代码最初是"slow"和cpp11,我决定试试cpp17和cpp14。不支持 cpp17,但支持 cpp14。我切换到 cpp14,瞧,我的性能提高了大约 25%。我真的对其进行了测试,以确保提升是真实的,而不是测量错误。我获得了一周的提升,然后我的设备重新启动,性能提升消失了!
这听起来可能很疯狂,但我对我的代码和测量非常确定。在这个噱头之前我没有明确的编译标志。现在我正试图找出 GCC 的编译标志以回收丢失的内容,但我对 GCC 没有太多经验。这里可能是什么问题?哪些标志会对性能产生如此大的影响?
代码使用 .so 文件,使用 llvm 和 gcc 编译
llvm -device=arm_cpu -target=armv8l-linux-gnueabihf -mattr=+neon,fp-armv8
"What flags can affect performance that much?"
打开优化器 -O1
、-O2
或 -O3
会产生显着效果(默认为未优化构建 -O0
)。
启用link时间优化-flto
通常也能带来显着的改善。
另请参阅 the manual 了解更多信息。
这不是 GCC 的错。这是 CPU 频率缩放问题。我的 ARM 设备搭载 Linux (ubuntu),奇怪的行为和不同的基准测试结果是由于奇怪的 cpu 频率受 OS 控制。
我偶然发现了 GCC 的一个非常奇怪的问题。问题是性能下降 25%。这是故事。
我有一个 fp32 计算密集型软件(使用 TVM 编译的神经网络)。我为 ARM(rk3399 设备)编译它,这里是信息:
gcc -v
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/lib/gcc/arm-linux-gnueabihf/5/lto-wrapper
Target: arm-linux-gnueabihf
Configured with: ../src/configure -v --with-pkgversion='Ubuntu/Linaro 5.4.0-6ubuntu1~16.04.12' --with-bugurl=file:///usr/share/doc/gcc-5/README.Bugs --enable-languages=c,ada,c++,java,go,d,fortran,objc,obj-c++ --prefix=/usr --program-suffix=-5 --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --with-sysroot=/ --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-gnu-unique-object --disable-libitm --disable-libquadmath --enable-plugin --with-system-zlib --disable-browser-plugin --enable-java-awt=gtk --enable-gtk-cairo --with-java-home=/usr/lib/jvm/java-1.5.0-gcj-5-armhf/jre --enable-java-home --with-jvm-root-dir=/usr/lib/jvm/java-1.5.0-gcj-5-armhf --with-jvm-jar-dir=/usr/lib/jvm-exports/java-1.5.0-gcj-5-armhf --with-arch-directory=arm --with-ecj-jar=/usr/share/java/eclipse-ecj.jar --enable-objc-gc --enable-multiarch --enable-multilib --disable-sjlj-exceptions --with-arch=armv7-a --with-fpu=vfpv3-d16 --with-float=hard --with-mode=thumb --disable-werror --enable-multilib --enable-checking=release --build=arm-linux-gnueabihf --host=arm-linux-gnueabihf --target=arm-linux-gnueabihf
Thread model: posix
gcc version 5.4.0 20160609 (Ubuntu/Linaro 5.4.0-6ubuntu1~16.04.12)
uname -a
Linux FriendlyELEC 4.4.143 #1 SMP Tue Nov 20 11:10:11 CST 2018 aarch64 aarch64 aarch64 GNU/Linux
lscpu
Architecture: aarch64
Byte Order: Little Endian
CPU(s): 6
On-line CPU(s) list: 0-5
Thread(s) per core: 1
Core(s) per socket: 3
Socket(s): 2
Model name: ARMv8 Processor rev 2 (v8l)
CPU max MHz: 1800.0000
CPU min MHz: 408.0000
Hypervisor vendor: horizontal
Virtualization type: full
代码最初是"slow"和cpp11,我决定试试cpp17和cpp14。不支持 cpp17,但支持 cpp14。我切换到 cpp14,瞧,我的性能提高了大约 25%。我真的对其进行了测试,以确保提升是真实的,而不是测量错误。我获得了一周的提升,然后我的设备重新启动,性能提升消失了!
这听起来可能很疯狂,但我对我的代码和测量非常确定。在这个噱头之前我没有明确的编译标志。现在我正试图找出 GCC 的编译标志以回收丢失的内容,但我对 GCC 没有太多经验。这里可能是什么问题?哪些标志会对性能产生如此大的影响?
代码使用 .so 文件,使用 llvm 和 gcc 编译
llvm -device=arm_cpu -target=armv8l-linux-gnueabihf -mattr=+neon,fp-armv8
"What flags can affect performance that much?"
打开优化器 -O1
、-O2
或 -O3
会产生显着效果(默认为未优化构建 -O0
)。
启用link时间优化-flto
通常也能带来显着的改善。
另请参阅 the manual 了解更多信息。
这不是 GCC 的错。这是 CPU 频率缩放问题。我的 ARM 设备搭载 Linux (ubuntu),奇怪的行为和不同的基准测试结果是由于奇怪的 cpu 频率受 OS 控制。