CPU HPC 集群上并行作业的使用波动

CPU usage fluctuation with a parallel job on HPC clusters

我们大学有 2 个 HPC 集群，专门用于运行量子化学计算。一个是旧的（自 2009 年以来），而较新的是几周前安装的。新旧集群系统中的每个计算blade都有16个处理器。相同的程序安装在两个集群上并与 OpenMpi 1.6.5 一起工作。在旧集群上，每个 blade 的处理器使用率稳定在 100%，看起来像这样：

现在，当运行在新集群的计算 blade 上进行完全相同的计算时，CPU 使用率始终在 0 到 100% 之间波动，并且在大多数情况下时间看起来像这样：

旧集群上的计算，即使处理器属于较老一代且功率较低，完成的时间也比在新集群上启动的计算时间短得多。两个集群系统都是运行RedHatlinuxenterprise

这可能是什么问题？以及如何修复它？

非常感谢您的帮助。

我终于解决了这个问题。我想我会 post 在这里帮助任何可能遇到同样问题的人。在新集群上，有 CPU 频率问题的集群，计算是运行直接在 /home 分区上，该分区通过 NFS（网络文件系统）连接到每个计算 blade。这极大地减慢了计算速度并导致低 CPU 频率问题和高等待时间，可能是由于使用了大量资源来建立 blade 和 /home 之间的持续连接目录。当我修改脚本以在每个 blade 中的临时文件夹中进行计算运行时，问题就解决了。

CPU HPC 集群上并行作业的使用波动

CPU usage fluctuation with a parallel job on HPC clusters

linux

parallel-processing

cpu