我们可以对批处理进行窗口化吗?
Can we do windowing on batch processing?
在 Apache Beam 文档中,我们讨论了 window使用有界 PCollections。
https://beam.apache.org/documentation/programming-guide/#windowing
如果我们有一个有界数据,那么所有元素都将属于同一个 GLOBAL window。
在哪些用例中我们需要在批处理上应用 windowing?
有界数据没有时间和水印的概念。因此,对于批处理管道,windows 只不过是可以在分组时使用的多部分密钥的一部分。
一个可能的用例是从 1 天数据的语料库中获取每小时的唯一用户列表。但是,这也可以通过应用您自己的密钥(小时)和分组来完成。
Beam 具有统一的批处理和流处理模型以及类似的批处理和流处理 API,因此窗口概念在批处理和流处理中都可用。
在 Apache Beam 文档中,我们讨论了 window使用有界 PCollections。
https://beam.apache.org/documentation/programming-guide/#windowing
如果我们有一个有界数据,那么所有元素都将属于同一个 GLOBAL window。 在哪些用例中我们需要在批处理上应用 windowing?
有界数据没有时间和水印的概念。因此,对于批处理管道,windows 只不过是可以在分组时使用的多部分密钥的一部分。
一个可能的用例是从 1 天数据的语料库中获取每小时的唯一用户列表。但是,这也可以通过应用您自己的密钥(小时)和分组来完成。
Beam 具有统一的批处理和流处理模型以及类似的批处理和流处理 API,因此窗口概念在批处理和流处理中都可用。