如何在 GKE 中重启无响应的 kubernetes master

How to restart unresponsive kubernetes master in GKE

由于 us-central1-a 中的基础设施问题，昨晚我的一个 GKE 集群中的 kubernetes master 变得没有响应。

每当我在默认命名空间中运行 "kubectl get pods" 时，我都会收到以下错误消息： 服务器出错：服务器出错导致请求无法成功

如果我运行 "kubectl get pods --namespace=kube-system"，我只会看到 kube-proxy 和 fluentd-logging 守护进程。

我尝试将群集缩小到 0，然后再将其放大。我也尝试过降级和升级集群，但这似乎只适用于节点（而不是主节点）。是否有任何 GKE/K8S API 命令向 kubernetes master 发出重启？

没有允许您在 GKE 中重启 Kubernetes 主节点的命令（因为主节点被视为托管服务的一部分）。有自动化的基础设施（然后是 Google 的 oncall 工程师）负责在 master 不健康时重启它。

在这种特殊情况下，重新启动主机对其恢复正常行为没有影响，因为 Google Compute Engine Incident #16011 caused an outage on 2016-06-28 for GKE masters running in us-central1-a (even though that isn't indicated on the Google Cloud Status Dashboard)。事发期间，很多高手都无法使用。

如果您在那段时间尝试使用 kube-up.sh 创建 GCE 集群，您会类似地看到由于 SSD 永久磁盘延迟问题，它无法创建功能主虚拟机.

我正在尝试至少准备好一个版本进行升级，如果您尝试升级主版本，它将在几分钟内重新启动并工作。否则你应该等待大约 3 天，而 Google 团队将重新启动它。在e-mail/phone，那帮不了你了。除非你支付了支持（过渡到这需要几天），否则他们不会给一只鸟。

如何在 GKE 中重启无响应的 kubernetes master

How to restart unresponsive kubernetes master in GKE

kubernetes

google-kubernetes-engine