如何在 GKE 中重启无响应的 kubernetes master
How to restart unresponsive kubernetes master in GKE
由于 us-central1-a 中的基础设施问题,昨晚我的一个 GKE 集群中的 kubernetes master 变得没有响应。
每当我在默认命名空间中 运行 "kubectl get pods" 时,我都会收到以下错误消息:
服务器出错:服务器出错导致请求无法成功
如果我 运行 "kubectl get pods --namespace=kube-system",我只会看到 kube-proxy 和 fluentd-logging 守护进程。
我尝试将群集缩小到 0,然后再将其放大。我也尝试过降级和升级集群,但这似乎只适用于节点(而不是主节点)。是否有任何 GKE/K8S API 命令向 kubernetes master 发出重启?
没有允许您在 GKE 中重启 Kubernetes 主节点的命令(因为主节点被视为托管服务的一部分)。有自动化的基础设施(然后是 Google 的 oncall 工程师)负责在 master 不健康时重启它。
在这种特殊情况下,重新启动主机对其恢复正常行为没有影响,因为 Google Compute Engine Incident #16011 caused an outage on 2016-06-28 for GKE masters running in us-central1-a (even though that isn't indicated on the Google Cloud Status Dashboard)。事发期间,很多高手都无法使用。
如果您在那段时间尝试使用 kube-up.sh 创建 GCE 集群,您会类似地看到由于 SSD 永久磁盘延迟问题,它无法创建功能主虚拟机.
我正在尝试至少准备好一个版本进行升级,如果您尝试升级主版本,它将在几分钟内重新启动并工作。否则你应该等待大约 3 天,而 Google 团队将重新启动它。在e-mail/phone,那帮不了你了。除非你支付了支持(过渡到这需要几天),否则他们不会给一只鸟。
由于 us-central1-a 中的基础设施问题,昨晚我的一个 GKE 集群中的 kubernetes master 变得没有响应。
每当我在默认命名空间中 运行 "kubectl get pods" 时,我都会收到以下错误消息: 服务器出错:服务器出错导致请求无法成功
如果我 运行 "kubectl get pods --namespace=kube-system",我只会看到 kube-proxy 和 fluentd-logging 守护进程。
我尝试将群集缩小到 0,然后再将其放大。我也尝试过降级和升级集群,但这似乎只适用于节点(而不是主节点)。是否有任何 GKE/K8S API 命令向 kubernetes master 发出重启?
没有允许您在 GKE 中重启 Kubernetes 主节点的命令(因为主节点被视为托管服务的一部分)。有自动化的基础设施(然后是 Google 的 oncall 工程师)负责在 master 不健康时重启它。
在这种特殊情况下,重新启动主机对其恢复正常行为没有影响,因为 Google Compute Engine Incident #16011 caused an outage on 2016-06-28 for GKE masters running in us-central1-a (even though that isn't indicated on the Google Cloud Status Dashboard)。事发期间,很多高手都无法使用。
如果您在那段时间尝试使用 kube-up.sh 创建 GCE 集群,您会类似地看到由于 SSD 永久磁盘延迟问题,它无法创建功能主虚拟机.
我正在尝试至少准备好一个版本进行升级,如果您尝试升级主版本,它将在几分钟内重新启动并工作。否则你应该等待大约 3 天,而 Google 团队将重新启动它。在e-mail/phone,那帮不了你了。除非你支付了支持(过渡到这需要几天),否则他们不会给一只鸟。