Apache Beam 批处理可以从检查点重新启动吗?
Can an Apache Beam batch process be restarted from a checkpoint?
我在 Google Cloud Dataflow 上有一个长时间的 运行ning Apache Beam 批处理分析过程,但中途失败了。为了节省时间和成本,是否可以更新我的代码来处理故障,并使用缓存的中间检查点从故障点重新运行?
Dataflow 批处理管道在管道终止(成功或失败)时丢弃所有中间结果。
目前您需要在实现中间数据的管道中添加点,然后在失败时您可以启动一个新管道,它是现有管道的一个子集,用于读取中间结果并继续处理。
我在 Google Cloud Dataflow 上有一个长时间的 运行ning Apache Beam 批处理分析过程,但中途失败了。为了节省时间和成本,是否可以更新我的代码来处理故障,并使用缓存的中间检查点从故障点重新运行?
Dataflow 批处理管道在管道终止(成功或失败)时丢弃所有中间结果。
目前您需要在实现中间数据的管道中添加点,然后在失败时您可以启动一个新管道,它是现有管道的一个子集,用于读取中间结果并继续处理。