GKE 集群自动扩缩器卡在初始化状态

GKE's cluster autoscaler got stucked in initializing status

我最近在优化集群 (GKE) 利用率,2 天前我注意到我的节点没有向上或向下扩展。自动缩放配置映射处于初始化模式:

kubectl describe -n kube-system configmap cluster-autoscaler-status
Name:         cluster-autoscaler-status
Namespace:    kube-system
Labels:       <none>
Annotations:  cluster-autoscaler.kubernetes.io/last-updated: 2020-04-29 14:44:54.363091383 +0000 UTC

Data
====
status:
----
Cluster-autoscaler status at 2020-04-29 14:44:54.363091383 +0000 UTC:
Initializing
Events:  <none>

其他集群包含适当的自动缩放事件。我认为我可以用 pods 的数量使集群过载。它包含 ~100 pods / 节点。

更新 1:

  1. master 上的 GKE 版本 运行 是什么?: 1.14.10-gke.27,但我认为升级到 1.15.11-gke.9 会有所帮助(并且会以某种方式掌握)。它没有帮助。我们还有其他具有相同版本和池的集群。
  2. 它是发生在任何节点池上还是发生在特定节点池上?: 自动缩放配置映射是一种“全局级别”,因此所有节点池都会受到影响。
  3. 您能否提供池大小、gke 版本和自动缩放设置?
default  OK 1.14.10-gke.27  4 (2 per zone) custom-8-45056   Container-Optimized OS (cos)    0 - 8 nodes per zone    
preemptible8-2   OK 1.14.10-gke.27  10 (5 per zone) n1-standard-8   Container-Optimized OS (cos)    0 - 20 nodes per zone   
scalability-stable-2-cpu     OK 1.14.10-gke.27 1 (0 - 1 per zone) n1-standard-2 Container-Optimized OS (cos)    0 - 4 nodes per zone

附加信息:

  1. 当它关闭自动缩放并在每个节点池中打开时,kubectl describe -n kube-system configmap cluster-autoscaler-status has changed 的输出。
  2. 我认为当我更改以下设置时可能会发生:scalability-stable-2-cpu。

3 天后恢复正常。