MPI 全对全通信问题
MPI all-to-all communication issue
我正在进程之间传递大向量以进行数值模拟。一切正常,直到某个时间步。我没有报错,但是输出的解明显不对。
我调试了一段时间,我的假设是 MPI 通信中有错误。
我的代码的通信部分如下所示:
MPI_Request req;
for(int j=0;j<numProcs;j++){
if(j!=myId){
tag=0;
sizeToSend=toProc[j].size();
MPI_Isend(&sizeToSend, 1, MPI_LONG_LONG, j, tag, MPI_COMM_WORLD,&req);
MPI_Request_free(&req);
}
}
for(int j=0;j<numProcs;j++){
if(j!=myId){
tag=0;
MPI_Recv(&sizeToReceive[j], 1, MPI_LONG_LONG, j, tag, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
}
}
for(int j=0;j<numProcs;j++){
if(j!=myId){
if(toProc[j].size()>0){
tag=1;
MPI_Isend(&toProc[j][0], toProc[j].size(), MPI_LONG_LONG, j, tag, MPI_COMM_WORLD,&req);
MPI_Request_free(&req);
}
}
}
for(int j=0;j<numProcs;j++){
if(j!=myId){
if(sizeToReceive[j]>0){
receiveBuffer.resize(sizeToReceive[j]);
tag=1;
MPI_Recv(&receiveBuffer[0], sizeToReceive[j], MPI_LONG_LONG, j, tag, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
for(int k=0;k<sizeToReceive[j];k++){
domain.field[receiveBuffer[k]]=1;
}
receiveBuffer.clear();
}
}
}
MPI_Barrier(MPI_COMM_WORLD);
for(int j=0;j<toProc.size();j++){
toProc[j].clear();
}
变量numProcs
是一个包含进程数的整数,myId
是一个包含进程排名的整数,tag
是一个整数,domain.field
是一个vector<char>
。
其他必要的变量定义如下:
vector<vector <long long> > toProc;
toProc.resize(numProcs);
long long sizeToReceive[numProcs];
long long sizeToSend=0;
vector<long long> receiveBuffer;
我在上面的代码中尝试做的是发送向量 toProc[j]
以在每个进程中使用 id==j for j=0,...,numProcs-1, j!=myId
进行处理。
为此,我在前两个 for 循环中发送和接收这些向量的大小,并在第三个和第四个 for 循环中发送和接收实际数据。我正在使用 Isend,因为我显然希望这些调用是非阻塞的。
toProc[j]
中的值是索引,必须在进程j的向量domain.field中设置为1(每个进程都有自己的domain.field)。
我的问题是:
在我使用 Isend-Recv 策略时,您是否看到任何潜在的意外行为。
您正在为多个 ISend
请求重复使用一个变量,而无需等待完成。
MPI Standard: 3.7.2 和 3.7.4 关于 MPI_Request_free
A nonblocking send call indicates that the system may start copying
data out of the send buffer. The sender should not modify any part of
the send buffer after a nonblocking send operation is called, until
the send completes.
这意味着,您不能在发送完成之前覆盖sizeToSend
。
Mark the request object for deallocation and set request to
MPI_REQUEST_NULL. An ongoing communication that is associated with the
request will be allowed to complete. The request will be deallocated
only after its completion.
这意味着,在MPI_Request_free
之后发送不保证完成。
您可以重组您的代码以将 sizeToSend
保存在一个向量中,并将打开的请求保存在一个向量中以正确地 MPI_Waitall
处理它们。但我建议在整个操作中只使用 MPI_Alltoall
和 MPI_Alltoallv
。
我正在进程之间传递大向量以进行数值模拟。一切正常,直到某个时间步。我没有报错,但是输出的解明显不对。
我调试了一段时间,我的假设是 MPI 通信中有错误。
我的代码的通信部分如下所示:
MPI_Request req;
for(int j=0;j<numProcs;j++){
if(j!=myId){
tag=0;
sizeToSend=toProc[j].size();
MPI_Isend(&sizeToSend, 1, MPI_LONG_LONG, j, tag, MPI_COMM_WORLD,&req);
MPI_Request_free(&req);
}
}
for(int j=0;j<numProcs;j++){
if(j!=myId){
tag=0;
MPI_Recv(&sizeToReceive[j], 1, MPI_LONG_LONG, j, tag, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
}
}
for(int j=0;j<numProcs;j++){
if(j!=myId){
if(toProc[j].size()>0){
tag=1;
MPI_Isend(&toProc[j][0], toProc[j].size(), MPI_LONG_LONG, j, tag, MPI_COMM_WORLD,&req);
MPI_Request_free(&req);
}
}
}
for(int j=0;j<numProcs;j++){
if(j!=myId){
if(sizeToReceive[j]>0){
receiveBuffer.resize(sizeToReceive[j]);
tag=1;
MPI_Recv(&receiveBuffer[0], sizeToReceive[j], MPI_LONG_LONG, j, tag, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
for(int k=0;k<sizeToReceive[j];k++){
domain.field[receiveBuffer[k]]=1;
}
receiveBuffer.clear();
}
}
}
MPI_Barrier(MPI_COMM_WORLD);
for(int j=0;j<toProc.size();j++){
toProc[j].clear();
}
变量numProcs
是一个包含进程数的整数,myId
是一个包含进程排名的整数,tag
是一个整数,domain.field
是一个vector<char>
。
其他必要的变量定义如下:
vector<vector <long long> > toProc;
toProc.resize(numProcs);
long long sizeToReceive[numProcs];
long long sizeToSend=0;
vector<long long> receiveBuffer;
我在上面的代码中尝试做的是发送向量 toProc[j]
以在每个进程中使用 id==j for j=0,...,numProcs-1, j!=myId
进行处理。
为此,我在前两个 for 循环中发送和接收这些向量的大小,并在第三个和第四个 for 循环中发送和接收实际数据。我正在使用 Isend,因为我显然希望这些调用是非阻塞的。
toProc[j]
中的值是索引,必须在进程j的向量domain.field中设置为1(每个进程都有自己的domain.field)。
我的问题是: 在我使用 Isend-Recv 策略时,您是否看到任何潜在的意外行为。
您正在为多个 ISend
请求重复使用一个变量,而无需等待完成。
MPI Standard: 3.7.2 和 3.7.4 关于 MPI_Request_free
A nonblocking send call indicates that the system may start copying data out of the send buffer. The sender should not modify any part of the send buffer after a nonblocking send operation is called, until the send completes.
这意味着,您不能在发送完成之前覆盖sizeToSend
。
Mark the request object for deallocation and set request to MPI_REQUEST_NULL. An ongoing communication that is associated with the request will be allowed to complete. The request will be deallocated only after its completion.
这意味着,在MPI_Request_free
之后发送不保证完成。
您可以重组您的代码以将 sizeToSend
保存在一个向量中,并将打开的请求保存在一个向量中以正确地 MPI_Waitall
处理它们。但我建议在整个操作中只使用 MPI_Alltoall
和 MPI_Alltoallv
。