云数据流:每小时更新一次的查询 table 作为辅助输入

Cloud Dataflow: a lookup table that is updated every hour as a side input

在 Cloud Dataflow 上使用 Apache Beam,我想使用每小时更新一次的查找 table。

我找到了一个用于缓慢变化的查找缓存的解决方案 here,但文章特别指出该模式适合每天而不是每小时更改。

使用此解决方案进行更频繁的更新有什么问题?

我应该如何实现每小时更新一次的查找 table sideinput?

对于 Dataflow,每小时与每天应该不会有太大差异。该解决方案应该适用于每小时更新一次。

考虑引擎(在本例中为 Dataflow)加载侧输入可能需要的时间。如果您需要每小时加载数 TB 的数据,那么这对您的管道来说可能是个问题。

另一方面,如果您需要每小时加载 MB 到几 GB 的数据,那么您的管道每小时执行一次应该相对较快。