运行 在光束中每隔几分钟执行一次类似 cron 的任务?

Run cron-like tasks every few minutes in beam?

我的beam pipeline将数据导入bigquery,最近需要支持update和delete。由于 BigQuery 对我一天可以执行的更新和删除量有每日限制,因此我想要一个每 30 分钟左右运行一次的单独进程,以将更新和删除合并到主数据集中。

有什么方法可以用 Apache Beam 做到这一点吗?一个在定时器上运行并且只执行副作用的函数,并确保它只在一台机器上执行?

如果我的所有代码都在同一个数据流作业代码库中,我会非常喜欢它,如果数据流作业不是 运行.

,它就不会执行

否则,您应该使用 Kubernetes Cronjobs。

您可以使用 GenerateSequence 转换以指定频率触发操作(合并更新和删除)。

使用云调度程序每 30 分钟重新启动一次管道?

https://cloud.google.com/scheduler/