监控 AKS 的最佳方式

Best way for monitoring AKS

我需要找到并比较监控 AKS 的最佳解决方案。

不同产品之间有比较吗?我没有找到任何 link

我需要比较价格、功能等

我们尝试使用日志分析,但非常昂贵。

虽然您不会在 StackOver Flow 上获得产品推荐。

我建议您查看 OSS 堆栈,以便总体上正确监控 AKS 和 Kubernetes。此解决方案适用于任何 Kubernetes 集群 (AKS/EKS/GKE/BareMatel)。

从 Prometheus Operator 开始,这将为您的 Kubernetes 集群引入 Grafana/Prometheus/AlertManager 和一组默认仪表板和警报。

https://github.com/helm/charts/tree/master/stable/prometheus-operator

您甚至可以监控控制平面:

kube-apiserver
kube-scheduler
kube-controller-manager
etcd
kube-dns/coredns
kube-proxy

为了更好的存储(因为 Prometheus 旨在保持少量保留)请查看使用 Thanos 配置您的堆栈:https://thanos.io

这将允许您将指标保留增加到几乎无限量。

就供应商而言,当您开始与他们打交道时,很多供应商都会有相同的价格。其中一些将依赖于安装自己的代理,而另一些将依赖于安装 Prometheus 和 Kube-State-Metrics。

虽然指标很棒,但您应该允许您的用户访问跟踪,这有助于识别不同会话的流程和瓶颈。

https://www.jaegertracing.io/

https://www.jaegertracing.io/docs/1.18/operator/

https://github.com/jaegertracing/helm-charts

最后,对于日志和日志索引,ELK 堆栈是您的首选解决方案。

https://github.com/elastic/cloud-on-k8s

Elastic 团队一直在努力开发一个好的操作器,以方便在 Kubernetes 上管理 ELK 集群。