猪:如何对时间序列数据进行重采样?

Pig : how to resample time series data?

我正在使用 Pig 处理一个非常大的数据集。

数据包含 timestamp(直到第二个频率),我想以分钟频率聚合我的数据(计算每分钟的观察次数,计算那一分钟内其他变量的平均值)。

是否可以使用 Pig 来做到这一点? 谢谢!

您可以修改时间戳字段(生成新字段,例如 YYYYmmddHHMMss 到 YYYYmmddHHMM),然后按时间戳分组并聚合数据。