Apache Flink 的关键健康指标
Key health metrics for Apache Flink
我想弄清楚 Apache Flink 的关键健康指标是什么。
Flink 文档提供了大量指标,很难找出重要指标。
一些建议:
如果您使用的是 Kafka,Kafka 客户端指标将转发到 Flink 的指标系统中。监控消费者滞后会让您知道您的工作是否跟不上数据的流入。
如果您的工作未能取得进展,查看 currentLowWatermark
可以帮助您确定哪些任务阻碍了进展。
关注检查点是明智的。 lastCheckpointDuration
、lastCheckpointSize
和 numberOf{Completed,Failed,InProgress}Checkpoints
在这里很有用。
uptime
和 downtime
可以帮助您跟踪您的工作在恢复方面花费了多少时间,而不是实际 运行。
社区最近一直在讨论我们如何更好地检测背压。你会发现 that discussion in the dev mailing list archives.
我想弄清楚 Apache Flink 的关键健康指标是什么。 Flink 文档提供了大量指标,很难找出重要指标。
一些建议:
如果您使用的是 Kafka,Kafka 客户端指标将转发到 Flink 的指标系统中。监控消费者滞后会让您知道您的工作是否跟不上数据的流入。
如果您的工作未能取得进展,查看 currentLowWatermark
可以帮助您确定哪些任务阻碍了进展。
关注检查点是明智的。 lastCheckpointDuration
、lastCheckpointSize
和 numberOf{Completed,Failed,InProgress}Checkpoints
在这里很有用。
uptime
和 downtime
可以帮助您跟踪您的工作在恢复方面花费了多少时间,而不是实际 运行。
社区最近一直在讨论我们如何更好地检测背压。你会发现 that discussion in the dev mailing list archives.