优化 apache beam / 云数据流启动

Optimizing apache beam / cloud dataflow startup

我使用 auto-scale worker 和 1 个 worker 对 apache-beam 进行了一些测试，每次我看到启动时间大约为 2 分钟。是否可以缩短该时间？如果可以，建议的缩短启动时间的最佳做法是什么？

恕我直言：两分钟对于 Cloud Dataflow 这样的产品来说已经非常快了。请记住，Google 正在为您推出一项功能强大的自动缩放大数据服务。

将那个时间与其他云供应商进行比较。我见过一些集群 (Hadoop) 需要 15 分钟才能上线。无论如何，您无法控制 Dataflow 的初始化过程，因此您无需改进。