flink 检查点 E2E 持续时间太长

flink checkpoint E2E duration too long

checkpoint screenshot

一台机器需要很长时间才能检查点,但状态大小与其他机器大致相同,这是由于数据漂移还是其他原因? (数据按用户分组)

有些事情不知所措。要找出问题所在,请寻找延迟检查点屏障到达该子任务的背压,或延迟该子任务快照完成的资源争用。

像这样的不对称通常表示热键 -- 例如,一个用户有很多事件。