奇怪的执行时间
Weird Execution Times
问题是关于各种输入大小的执行时间顺序出现一些不连续性。
具体来说,我一直在尝试这段代码:
long double a[2000][2000];
int iter = 0;
int main(int argc, char const *argv[]){
istringstream is(argv[1]);
int N;
is >> N;
for(int i = 0; i <= N; ++i){
for (int J = 0; J <= N; ++J){
a[i][J] = (rand()%3+1)*(rand()%4+1);
}
}
clock_t clk= clock();
for(int k = 0; k < N; ++k){
for(int i = k+1; i < N; ++i){
a[i][k] = a[i][k]/a[k][k];
}
for(int i = k+1; i < N; ++i){
for(int j = k+1; j < N; ++j){
iter++;
a[i][j] = a[i][j] - a[i][k]*a[k][j];
}
}
}
clk = clock() - clk;
cout << "Time: " << ((double)clk)/CLOCKS_PER_SEC << "\n";
cout << iter << endl;
}
使用 g++ 5.4.1 进行 C++14 编译。
我尝试了 N 的各种值的代码。然而,在 N = 500 附近发生了一些非常奇怪的事情。执行时间如下所列。 (这些是各种 N 值的代码输出。
N = 200 : 0.022136
N = 300 : 0.06792
N = 400 : 0.149622
N = 500 : 11.8341
N = 600 : 0.508186
N = 700 : 0.805481
N = 800 : 1.2062
N = 900 : 1.7092
N = 1000 : 2.35809
我在 N = 500 上尝试了很多次,也在另一台机器上尝试了很多次,只是为了得到类似的结果。
大约500我们有以下:
N = 494 : 0.282626
N = 495 : 0.284564
N = 496 : 11.5308
N = 497 : 0.288031
N = 498 : 0.289903
N = 499 : 11.9615
N = 500 : 12.4032
N = 501 : 0.293737
N = 502 : 0.295729
N = 503 : 0.297859
N = 504 : 12.4154
N = 505 : 0.301002
N = 506 : 0.304718
N = 507 : 12.4385
为什么会这样?
您的程序可能有浮点溢出和运算,在某些情况下会导致 NaN(如果计算结果为 infinity/NaN,那么它会扩散到您的算法中,因此几乎所有数字都变成 infinity/NaN。这取决于 rand()
的输出。如果你用 srand()
改变种子,你可能不会得到 N=500
情况下的减速)。
并且,因为您使用 long double
,编译后的程序使用 FPU(如果您为 FPU 而不是 SSE 编译,您也可以使用 float
或 double
重现此内容) .看起来,FPU 处理无穷大的数字比处理普通数字要慢得多。
您可以使用以下代码片段轻松重现此问题:
int main() {
volatile long double z = 2;
for (int i=0; i<10000000; i++) {
z *= z;
}
return z;
}
如果z
使用2,则本程序运行缓慢(z
会溢出)。换成1就变快了(z
不会溢出)
您可以在此处阅读更多相关信息:https://randomascii.wordpress.com/2012/05/20/thats-not-normalthe-performance-of-odd-floats/
相关部分如下:
Performance implications on the x87 FPU
The performance of Intel’s x87 units on these NaNs and infinites is
pretty bad. [...] Even today, on a SandyBridge processor, the x87 FPU
causes a slowdown of about 370 to one on NaNs and infinities.
问题是关于各种输入大小的执行时间顺序出现一些不连续性。 具体来说,我一直在尝试这段代码:
long double a[2000][2000];
int iter = 0;
int main(int argc, char const *argv[]){
istringstream is(argv[1]);
int N;
is >> N;
for(int i = 0; i <= N; ++i){
for (int J = 0; J <= N; ++J){
a[i][J] = (rand()%3+1)*(rand()%4+1);
}
}
clock_t clk= clock();
for(int k = 0; k < N; ++k){
for(int i = k+1; i < N; ++i){
a[i][k] = a[i][k]/a[k][k];
}
for(int i = k+1; i < N; ++i){
for(int j = k+1; j < N; ++j){
iter++;
a[i][j] = a[i][j] - a[i][k]*a[k][j];
}
}
}
clk = clock() - clk;
cout << "Time: " << ((double)clk)/CLOCKS_PER_SEC << "\n";
cout << iter << endl;
}
使用 g++ 5.4.1 进行 C++14 编译。
我尝试了 N 的各种值的代码。然而,在 N = 500 附近发生了一些非常奇怪的事情。执行时间如下所列。 (这些是各种 N 值的代码输出。
N = 200 : 0.022136
N = 300 : 0.06792
N = 400 : 0.149622
N = 500 : 11.8341
N = 600 : 0.508186
N = 700 : 0.805481
N = 800 : 1.2062
N = 900 : 1.7092
N = 1000 : 2.35809
我在 N = 500 上尝试了很多次,也在另一台机器上尝试了很多次,只是为了得到类似的结果。
大约500我们有以下:
N = 494 : 0.282626
N = 495 : 0.284564
N = 496 : 11.5308
N = 497 : 0.288031
N = 498 : 0.289903
N = 499 : 11.9615
N = 500 : 12.4032
N = 501 : 0.293737
N = 502 : 0.295729
N = 503 : 0.297859
N = 504 : 12.4154
N = 505 : 0.301002
N = 506 : 0.304718
N = 507 : 12.4385
为什么会这样?
您的程序可能有浮点溢出和运算,在某些情况下会导致 NaN(如果计算结果为 infinity/NaN,那么它会扩散到您的算法中,因此几乎所有数字都变成 infinity/NaN。这取决于 rand()
的输出。如果你用 srand()
改变种子,你可能不会得到 N=500
情况下的减速)。
并且,因为您使用 long double
,编译后的程序使用 FPU(如果您为 FPU 而不是 SSE 编译,您也可以使用 float
或 double
重现此内容) .看起来,FPU 处理无穷大的数字比处理普通数字要慢得多。
您可以使用以下代码片段轻松重现此问题:
int main() {
volatile long double z = 2;
for (int i=0; i<10000000; i++) {
z *= z;
}
return z;
}
如果z
使用2,则本程序运行缓慢(z
会溢出)。换成1就变快了(z
不会溢出)
您可以在此处阅读更多相关信息:https://randomascii.wordpress.com/2012/05/20/thats-not-normalthe-performance-of-odd-floats/
相关部分如下:
Performance implications on the x87 FPU
The performance of Intel’s x87 units on these NaNs and infinites is pretty bad. [...] Even today, on a SandyBridge processor, the x87 FPU causes a slowdown of about 370 to one on NaNs and infinities.