Google Compute Engine VM 不断崩溃

Google Compute Engine VM constantly crashes

在 us-west-1b 的 Compute Engine 虚拟机上,我 运行 16 vCPUs 的使用率接近 99%。几个小时后,虚拟机自动崩溃。这不是一次性事件,我必须手动重启虚拟机。

有几次 CPU 使用率突然下降到 30% 左右,然后反弹回 99%。

崩溃时没有 VM 的日志。还有其他方法可以获取错误日志吗?

如何防止 VM 崩溃?

CPU usage graph

这可能是您的流程经理说您的流程资源不足。您可能想查看内核调整,您可以在其中增加对 VM/OS 及其资源上的活动进程数量的限制。或者您可以尝试使用具有更多物理资源的更大机器。简而言之,您的机器资源不足,因此为了保持 OS 正常运行,进程管理器关闭了进程。 SSH 就是其中之一。重置机器后,一切恢复正常。

进程 manager/kernel 决定退出进程的方式在很多方面各不相同。这可能只是因为一个进程一直持续很长时间以消耗太多资源。此外,需要注意的一件事是 OS 您用于在 GCP 上创建 VM 的图像由 Google 自定义强化,以确保它们可以限制进程的恶意功能 运行机器。

解决此问题的最佳方法之一是:

  • 增加 VM 的资源
  • 然后返回代码,看看是否有进程或内存泄漏的东西
  • 如果全部失败,那么您可能需要进行一些内核调整以确保您的进程比其他系统进程具有更高的优先级。尽管这是一个坏主意,因为您最终可能会创建一个僵尸 VM。