GKE 集群突然无法自动缩放节点池

GKE cluster suddenly not autoscaling nodepool

我在 GKE 上有两个节点池用于 CI 个运行器,工作节点池设置为在 0-40 个节点之间自动缩放。直到昨天,这已经完美运行了 ~6 个月,但现在我在 nap 被禁用时遇到了一个不一致的错误。

Pods 今天早上安排得很好:

decision: {
  decideTime: "1616746520" // Friday, 26 March 2021 08:15:20 GMT
  scaleUp: {

在某些时候他们开始失败,因为 nap.disabled:

noDecisionStatus: {
  measureTime: "1616756707" // Friday, 26 March 2021 11:05:07 GMT
  napFailureReason: {
    messageId: "no.scale.up.nap.disabled"
  }

这在技术上是正确的,因为集群本身禁用了节点自动配置,但节点池 workers2 可以从 0-40 个节点自动缩放。

我似乎找不到任何关于为什么当节点池本身应该缩放时我会收到此错误的信息,我也看不出 pods 突然不触发节点池自动缩放的任何原因。

有什么想法可以让我挖掘更多信息或阻止该错误阻止自动缩放?

创建一个新的节点池并销毁旧的节点池似乎已经解决了这个问题,不幸的是没有比这更深入的见解了

节点自动配置没有配置任何节点组,因为节点自动配置被禁用。有关详细信息,请参阅启用节点自动供应。 参考 : https://cloud.google.com/kubernetes-engine/docs/how-to/cluster-autoscaler-visibility