CPU HPC 集群上并行作业的使用波动
CPU usage fluctuation with a parallel job on HPC clusters
我们大学有 2 个 HPC 集群,专门用于 运行 量子化学计算。一个是旧的(自 2009 年以来),而较新的是几周前安装的。新旧集群系统中的每个计算blade都有16个处理器。相同的程序安装在两个集群上并与 OpenMpi 1.6.5 一起工作。在旧集群上,每个 blade 的处理器使用率稳定在 100%,看起来像这样:
现在,当 运行 在新集群的计算 blade 上进行完全相同的计算时,CPU 使用率始终在 0 到 100% 之间波动,并且在大多数情况下时间看起来像这样:
旧集群上的计算,即使处理器属于较老一代且功率较低,完成的时间也比在新集群上启动的计算时间短得多。
两个集群系统都是运行RedHatlinuxenterprise
这可能是什么问题?以及如何修复它?
非常感谢您的帮助。
我终于解决了这个问题。我想我会 post 在这里帮助任何可能遇到同样问题的人。
在新集群上,有 CPU 频率问题的集群,计算是 运行 直接在 /home 分区上,该分区通过 NFS(网络文件系统)连接到每个计算 blade。这极大地减慢了计算速度并导致低 CPU 频率问题和高等待时间,可能是由于使用了大量资源来建立 blade 和 /home 之间的持续连接目录。
当我修改脚本以在每个 blade 中的临时文件夹中进行计算 运行 时,问题就解决了。
我们大学有 2 个 HPC 集群,专门用于 运行 量子化学计算。一个是旧的(自 2009 年以来),而较新的是几周前安装的。新旧集群系统中的每个计算blade都有16个处理器。相同的程序安装在两个集群上并与 OpenMpi 1.6.5 一起工作。在旧集群上,每个 blade 的处理器使用率稳定在 100%,看起来像这样:
现在,当 运行 在新集群的计算 blade 上进行完全相同的计算时,CPU 使用率始终在 0 到 100% 之间波动,并且在大多数情况下时间看起来像这样:
旧集群上的计算,即使处理器属于较老一代且功率较低,完成的时间也比在新集群上启动的计算时间短得多。 两个集群系统都是运行RedHatlinuxenterprise
这可能是什么问题?以及如何修复它?
非常感谢您的帮助。
我终于解决了这个问题。我想我会 post 在这里帮助任何可能遇到同样问题的人。 在新集群上,有 CPU 频率问题的集群,计算是 运行 直接在 /home 分区上,该分区通过 NFS(网络文件系统)连接到每个计算 blade。这极大地减慢了计算速度并导致低 CPU 频率问题和高等待时间,可能是由于使用了大量资源来建立 blade 和 /home 之间的持续连接目录。 当我修改脚本以在每个 blade 中的临时文件夹中进行计算 运行 时,问题就解决了。