未定义的行为或 gcc 优化错误
Undefined behaviour or gcc optimization bug
问题是我们是否引入了未定义的行为来优化优化器,或者我们是否可以针对 gcc 提交错误报告?
抱歉缺少更好的标题,但它非常脆弱,我们几乎可以肯定这是一个错误。最小示例不是我们最喜欢的设计,但它基于崩溃的生产代码:
#include <iostream>
struct Node
{
Node(Node* parent) {
if(parent) {
parent->child_ = this;
}
}
Node* child()
{
return child_;
}
Node* child_ = nullptr;
};
void walk(Node* module, int cleanup) {
if(module != nullptr) {
if(!cleanup) {
std::cerr << "No cleanup";
}
walk(module->child(), cleanup);
if(cleanup) {
delete module;
}
}
}
int main (){
Node* top = new Node(nullptr);
Node* child = new Node(top);
walk(top,1);
}
与 -O1 -foptimize-sibling-calls -ftree-vrp
编译。 Godbolt 示例:https://gcc.godbolt.org/z/4VijKb
当模块为 0x0
时程序崩溃调用 module->child()
。检查汇编程序,我们注意到 if (module != nullptr)
在 walk
的开头被跳过。检查 cleanup
并调用 work
似乎是无条件的,这导致试图从无效指针中提取 child_
。
在汇编中重新建立检查(并且代码似乎可以工作)如果:
- 对
-O1
的两项优化中的任何一项都被取消。
if(!cleanup)
中的 - Body 已删除。 (
cerr
没有副作用)
- Body 共
if(cleanup)
已删除。 (内存泄漏,但我认为它算作可观察到的行为变化)
walk
在 "No cleanup" if
之前调用。 (操作顺序)
cleanup
类型从 int
更改为 bool
。 (类型更改 - 但我认为没有可观察到的行为更改)。
- 在
if(!cleanup)
之前无条件插入 cerr << "text";
。 (也是一个可观察到的变化。)
似乎是 tail-recursion 和 nullptr
检查删除的奇怪组合导致了错误的代码。可能 walk
根据 cleanup
检查拆分为同级函数并错误拼接(?)。
UB 的两位候选人是:
- 提示编译器
module
不是 nullptr
,但我看不到编译器可以推断结果的方法。
- 在
bool
上下文中使用 int
,但这是合法的 AFAIK。
FWIW clang
似乎生成正确的 run-time,gcc 8.3
也有用于检查当前的程序集。 9.1
和 trunk
不是。我们手头没有任何 gcc 专家,所以我们不知道为什么优化器会被误导。
它看起来确实像一个 GCC 错误。我已经盯着这段代码看了一段时间,但我找不到任何问题。
这也可以用 gcc
重现,而不仅仅是 g++
。如果你用 C 编写这个的最小版本,GCC 开发人员可能更容易调查。这个 C 代码在 GCC 9.1.0 上用 -O1 -foptimize-sibling-calls -ftree-vrp
:
为我重现了这个问题
#include <stdio.h>
#include <stdlib.h>
struct Node
{
struct Node* child;
};
void walk(struct Node* module, int cleanup)
{
if (module == NULL) {
return;
}
if (!cleanup) {
puts("No cleanup");
}
walk(module->child, cleanup);
if (cleanup) {
free(module);
}
}
int main()
{
struct Node* node = malloc(sizeof(struct Node));
node->child = NULL;
walk(node, 1);
}
问题是我们是否引入了未定义的行为来优化优化器,或者我们是否可以针对 gcc 提交错误报告?
抱歉缺少更好的标题,但它非常脆弱,我们几乎可以肯定这是一个错误。最小示例不是我们最喜欢的设计,但它基于崩溃的生产代码:
#include <iostream>
struct Node
{
Node(Node* parent) {
if(parent) {
parent->child_ = this;
}
}
Node* child()
{
return child_;
}
Node* child_ = nullptr;
};
void walk(Node* module, int cleanup) {
if(module != nullptr) {
if(!cleanup) {
std::cerr << "No cleanup";
}
walk(module->child(), cleanup);
if(cleanup) {
delete module;
}
}
}
int main (){
Node* top = new Node(nullptr);
Node* child = new Node(top);
walk(top,1);
}
与 -O1 -foptimize-sibling-calls -ftree-vrp
编译。 Godbolt 示例:https://gcc.godbolt.org/z/4VijKb
当模块为 0x0
时程序崩溃调用 module->child()
。检查汇编程序,我们注意到 if (module != nullptr)
在 walk
的开头被跳过。检查 cleanup
并调用 work
似乎是无条件的,这导致试图从无效指针中提取 child_
。
在汇编中重新建立检查(并且代码似乎可以工作)如果:
- 对
-O1
的两项优化中的任何一项都被取消。 - Body 已删除。 (
cerr
没有副作用) - Body 共
if(cleanup)
已删除。 (内存泄漏,但我认为它算作可观察到的行为变化) walk
在 "No cleanup"if
之前调用。 (操作顺序)cleanup
类型从int
更改为bool
。 (类型更改 - 但我认为没有可观察到的行为更改)。- 在
if(!cleanup)
之前无条件插入cerr << "text";
。 (也是一个可观察到的变化。)
if(!cleanup)
中的 似乎是 tail-recursion 和 nullptr
检查删除的奇怪组合导致了错误的代码。可能 walk
根据 cleanup
检查拆分为同级函数并错误拼接(?)。
UB 的两位候选人是:
- 提示编译器
module
不是nullptr
,但我看不到编译器可以推断结果的方法。 - 在
bool
上下文中使用int
,但这是合法的 AFAIK。
FWIW clang
似乎生成正确的 run-time,gcc 8.3
也有用于检查当前的程序集。 9.1
和 trunk
不是。我们手头没有任何 gcc 专家,所以我们不知道为什么优化器会被误导。
它看起来确实像一个 GCC 错误。我已经盯着这段代码看了一段时间,但我找不到任何问题。
这也可以用 gcc
重现,而不仅仅是 g++
。如果你用 C 编写这个的最小版本,GCC 开发人员可能更容易调查。这个 C 代码在 GCC 9.1.0 上用 -O1 -foptimize-sibling-calls -ftree-vrp
:
#include <stdio.h>
#include <stdlib.h>
struct Node
{
struct Node* child;
};
void walk(struct Node* module, int cleanup)
{
if (module == NULL) {
return;
}
if (!cleanup) {
puts("No cleanup");
}
walk(module->child, cleanup);
if (cleanup) {
free(module);
}
}
int main()
{
struct Node* node = malloc(sizeof(struct Node));
node->child = NULL;
walk(node, 1);
}