Google 云数据流管道中的批处理元素

Batching Elements in Google Cloud Dataflow Pipeline

我正在研究在流程中将元素分组到基于批次大小分组的批次组中。

在伪代码中:

PCollection[String].apply(Grouped.size(10))

基本上将 PCollection[String] 转换为 PCollection[List[String]],其中每个列表现在包含 10 个元素。因为它是批次的,如果它没有均匀划分,最后一批将包含剩余的元素。

我有两个丑陋的想法 windows 和假时间戳或 GroupBy 使用基于随机索引的键来均匀分布,但这似乎是简单问题的复杂解决方案。

这个问题类似于关于如何批处理元素的各种问题。查看这些以帮助您入门: