如何更改 GKE 集群事件的生存时间(默认为 1h0m0s)?
How to change time-to-live of GKE cluster events (from default 1h0m0s)?
我是 运行 GKE k8s deployments/jobs 需要很长时间才能执行 - 从几天到几周(机器学习)。
默认 GKE 事件在 1 小时后过期,这不足以调试训练期间可能出现的问题,如 OOMKilling 等。
kube-apiserver
未在 GKE 中公开,因此我想找到一种方法来访问和更改 属性,例如 event-ttl
。
如何为已启动的集群更改 event-ttl
,或者如何在创建集群时指定 event-ttl
?例如,如果我希望集群中的所有事件都可用 24 小时。是否有 kubectl
命令(kubernetes
svc 可访问)?
提前致谢!
目前无法。正如您所说,kube-apiserver
标志目前在 GKE 上不可由用户配置。有计划向用户公开更多这样的旋钮,但我不知道什么时候可用。
我是 运行 GKE k8s deployments/jobs 需要很长时间才能执行 - 从几天到几周(机器学习)。 默认 GKE 事件在 1 小时后过期,这不足以调试训练期间可能出现的问题,如 OOMKilling 等。
kube-apiserver
未在 GKE 中公开,因此我想找到一种方法来访问和更改 属性,例如 event-ttl
。
如何为已启动的集群更改 event-ttl
,或者如何在创建集群时指定 event-ttl
?例如,如果我希望集群中的所有事件都可用 24 小时。是否有 kubectl
命令(kubernetes
svc 可访问)?
提前致谢!
目前无法。正如您所说,kube-apiserver
标志目前在 GKE 上不可由用户配置。有计划向用户公开更多这样的旋钮,但我不知道什么时候可用。