运行 使用 Python SDK 进行多项测量的组合器?
Run combiner on multiple measures with Python SDK?
我正在努力寻找一个关于如何使用 google 云数据流组合器到 运行 一个常见的 ETL tasl 的真实示例,该 tasl 聚合多个键(例如日期、位置)上的记录和对不同度量(例如 GrossValue、NetValue、Quantity)的值求和。我只能找到具有典型 Key/Value(例如 Day/Value)聚合的示例。任何有关如何使用 Python SDK 完成此操作的提示都将不胜感激。
我不是 100% 确定我理解你的问题。您是否有单独的元素要尝试将数据连接在一起,在这种情况下您可能希望使用 CoGroupByKey?还是单个元素有多个字段?
希望这些信息对您有所帮助,
我建议查看 windowing, which will allow you to subdivide a PCollection according to the timestamps of its individual elements. If you want to see all the events for particular day this may be useful. Python examples of windowing. You may want to window across a days worth of data. This link 也有助于了解如何以不同方式使用 GroupByKey,
另一种选择是确定您的元素属于哪个日期,并使用按键分组以使用“[location][date][other]”对其进行键控。如果你想基于多个字段加入数据,你可能需要做这样的事情。
查看此 GroupByKey 示例,但更改密钥以使用您的 multiple fields concatenated。
这是一个example for reducing with a custom combiner。您可以在此处添加逻辑以对多个不同的测量值进行自定义聚合。
我正在努力寻找一个关于如何使用 google 云数据流组合器到 运行 一个常见的 ETL tasl 的真实示例,该 tasl 聚合多个键(例如日期、位置)上的记录和对不同度量(例如 GrossValue、NetValue、Quantity)的值求和。我只能找到具有典型 Key/Value(例如 Day/Value)聚合的示例。任何有关如何使用 Python SDK 完成此操作的提示都将不胜感激。
我不是 100% 确定我理解你的问题。您是否有单独的元素要尝试将数据连接在一起,在这种情况下您可能希望使用 CoGroupByKey?还是单个元素有多个字段?
希望这些信息对您有所帮助,
我建议查看 windowing, which will allow you to subdivide a PCollection according to the timestamps of its individual elements. If you want to see all the events for particular day this may be useful. Python examples of windowing. You may want to window across a days worth of data. This link 也有助于了解如何以不同方式使用 GroupByKey,
另一种选择是确定您的元素属于哪个日期,并使用按键分组以使用“[location][date][other]”对其进行键控。如果你想基于多个字段加入数据,你可能需要做这样的事情。
查看此 GroupByKey 示例,但更改密钥以使用您的 multiple fields concatenated。
这是一个example for reducing with a custom combiner。您可以在此处添加逻辑以对多个不同的测量值进行自定义聚合。