Google Cloud Dataflow 修复了基于零的索引和基于一的索引

Google Cloud Dataflow fix zero based indexing and one based index

我和我的团队开始使用 Google Cloud Dataflow 来远程 运行 我们的工作,而不是在本地计算机上。我们从 Python 中设置的朱利安示例开始,以确保部署成功。

它确实在 Google Cloud Dataflow 上完成了,尽管它比在我的本地机器上花费的时间更长。

我们遇到的问题是他们在同一文件名中使用了基于零的索引和基于一的索引,这对我们来说没有意义。

我们认为结束于 00008-of-00008 或 00009-of-00009 比结束于 00008-of-00009 更有意义。无论如何我们可以解决这个问题,使左右两侧的数字可以匹配吗?

通过使用 0000X-of-0000Y 格式,Beam 尝试执行 index-of-count。右边的数字是分片总数,而左边的数字是从零开始的索引。

A​​pache Beam 中的接收器目前不支持(轻松地)更改此行为。要自己添加它,您必须修改 Apache Beam 中的代码(具体来说,around here)。

希望对您有所帮助。