优化 apache beam / 云数据流启动

Optimizing apache beam / cloud dataflow startup

我使用 auto-scale worker 和 1 个 worker 对 apache-beam 进行了一些测试,每次我看到启动时间大约为 2 分钟。是否可以缩短该时间?如果可以,建议的缩短启动时间的最佳做法是什么?

恕我直言:两分钟对于 Cloud Dataflow 这样的产品来说已经非常快了。请记住,Google 正在为您推出一项功能强大的自动缩放大数据服务。

将那个时间与其他云供应商进行比较。我见过一些集群 (Hadoop) 需要 15 分钟才能上线。无论如何,您无法控制 Dataflow 的初始化过程,因此您无需改进。