Google 云数据流管道中的批处理元素
Batching Elements in Google Cloud Dataflow Pipeline
我正在研究在流程中将元素分组到基于批次大小分组的批次组中。
在伪代码中:
PCollection[String].apply(Grouped.size(10))
基本上将 PCollection[String] 转换为 PCollection[List[String]],其中每个列表现在包含 10 个元素。因为它是批次的,如果它没有均匀划分,最后一批将包含剩余的元素。
我有两个丑陋的想法 windows 和假时间戳或 GroupBy 使用基于随机索引的键来均匀分布,但这似乎是简单问题的复杂解决方案。
这个问题类似于关于如何批处理元素的各种问题。查看这些以帮助您入门:
我正在研究在流程中将元素分组到基于批次大小分组的批次组中。
在伪代码中:
PCollection[String].apply(Grouped.size(10))
基本上将 PCollection[String] 转换为 PCollection[List[String]],其中每个列表现在包含 10 个元素。因为它是批次的,如果它没有均匀划分,最后一批将包含剩余的元素。
我有两个丑陋的想法 windows 和假时间戳或 GroupBy 使用基于随机索引的键来均匀分布,但这似乎是简单问题的复杂解决方案。
这个问题类似于关于如何批处理元素的各种问题。查看这些以帮助您入门: