在数据流作业中没有达到目标工人的后果是什么?

What are the consequences of not reaching target workers in a dataflow job?

我的 apache beam scio 数据流作业要求的工作人员数量超过我当前的配额。作业成功完成,但仅限于 575 个工人。不给它所要求的 RAM 的后果是什么。更多中间步骤的磁盘 IO?较慢的接收器 IO?这取决于工作的进展吗?特别是,我的工作非常简单,真的有 2 个步骤:

-aggregateByKey 
-DO IO per key

我可以 运行 我自己的实验,但我也对这项工作的成本感兴趣,因为它不是对时间非常敏感的操作(也就是说我可以让它 运行 如果便宜的话就更长)...

在这种情况下,您的工作将比配额更高时的运行时间更长,但所有工作人员执行工作所花费的总时间应该大致相同。

Dataflow 会根据每个 CPU、内存和存储单元的分配时间向您收费。如果总 CPU 小时、RAM GB 小时和存储 GB 小时大致相同,则您的工作成本应该大致相同。

注意:如果您使用随机播放服务,Dataflow 也会根据随机播放的字节数收费。这应该也不受工人数量的影响。