调度 Dataflow 流水线

Scheduling Dataflow pipelines

我想每隔一小时 google 安排一个数据流作业到 运行

我检查这个url https://cloud.google.com/blog/big-data/2016/04/scheduling-dataflow-pipelines-using-app-engine-cron-service-or-cloud-functions 但是我有很多错误。

我怎样才能做到这一点?

从我的角度来看,使用 App Engine 是在尝试将一个好的工具重新用于不同的用途。

我们选择 运行 我们自己的 CRON 实例。

请检查使用 google 数据流窗口和无限源来做这种情况 https://cloud.google.com/dataflow/model/windowing https://cloud.google.com/dataflow/examples/gaming-example

您可以使用每 1 小时运行一次并调用云函数的云调度程序, Cloud 函数将使用 Dataflow 客户端 API 库来提交 Dataflow 作业。

勾选这个linkhttps://dzone.com/articles/triggering-dataflow-pipelines-with-cloud-functions