Apache Flink 的关键健康指标

Key health metrics for Apache Flink

我想弄清楚 Apache Flink 的关键健康指标是什么。 Flink 文档提供了大量指标,很难找出重要指标。

一些建议:

如果您使用的是 Kafka,Kafka 客户端指标将转发到 Flink 的指标系统中。监控消费者滞后会让您知道您的工作是否跟不上数据的流入。

如果您的工作未能取得进展,查看 currentLowWatermark 可以帮助您确定哪些任务阻碍了进展。

关注检查点是明智的。 lastCheckpointDurationlastCheckpointSizenumberOf{Completed,Failed,InProgress}Checkpoints 在这里很有用。

uptimedowntime 可以帮助您跟踪您的工作在恢复方面花费了多少时间,而不是实际 运行。

社区最近一直在讨论我们如何更好地检测背压。你会发现 that discussion in the dev mailing list archives.