Flink 作业 - 连续 运行 vs cancel/start
Flink job - continously running vs cancel/start
根据需要暂停或重新启动 Flink 作业与连续 运行 在计算资源方面有什么好处?这适用于新文件每天到达并在一小时内摄取的用例。这些工作现在持续 运行。但是想知道围绕此类用例的任何最佳实践,以便可以在迁移到云时优化计算。
如果您要 运行 在云中,那么根据需要启动 Flink 集群 (once/day) 来对当天的输入文件进行批处理显然是与 运行 真正的流媒体工作相比,可以节省您的钱,并且(可能)操作起来更容易。
This is for use cases where new files arrive daily and are ingested within an hour.
鉴于这种情况,批处理模式优于流式执行模式。
流式执行模式最适合实时计算、监控、及时推荐等场景。批处理模式最适合处理一次或每天处理数据的场景。
此外,Flink针对输入流有界的条件,对批处理模式进行了多项优化
要启用批处理模式,您可以在官方文档中查看更多详细信息:https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/datastream/execution_mode/
根据需要暂停或重新启动 Flink 作业与连续 运行 在计算资源方面有什么好处?这适用于新文件每天到达并在一小时内摄取的用例。这些工作现在持续 运行。但是想知道围绕此类用例的任何最佳实践,以便可以在迁移到云时优化计算。
如果您要 运行 在云中,那么根据需要启动 Flink 集群 (once/day) 来对当天的输入文件进行批处理显然是与 运行 真正的流媒体工作相比,可以节省您的钱,并且(可能)操作起来更容易。
This is for use cases where new files arrive daily and are ingested within an hour.
鉴于这种情况,批处理模式优于流式执行模式。
流式执行模式最适合实时计算、监控、及时推荐等场景。批处理模式最适合处理一次或每天处理数据的场景。
此外,Flink针对输入流有界的条件,对批处理模式进行了多项优化
要启用批处理模式,您可以在官方文档中查看更多详细信息:https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/datastream/execution_mode/