猪:如何对时间序列数据进行重采样?
Pig : how to resample time series data?
我正在使用 Pig
处理一个非常大的数据集。
数据包含 timestamp
(直到第二个频率),我想以分钟频率聚合我的数据(计算每分钟的观察次数,计算那一分钟内其他变量的平均值)。
是否可以使用 Pig
来做到这一点?
谢谢!
您可以修改时间戳字段(生成新字段,例如 YYYYmmddHHMMss 到 YYYYmmddHHMM),然后按时间戳分组并聚合数据。
我正在使用 Pig
处理一个非常大的数据集。
数据包含 timestamp
(直到第二个频率),我想以分钟频率聚合我的数据(计算每分钟的观察次数,计算那一分钟内其他变量的平均值)。
是否可以使用 Pig
来做到这一点?
谢谢!
您可以修改时间戳字段(生成新字段,例如 YYYYmmddHHMMss 到 YYYYmmddHHMM),然后按时间戳分组并聚合数据。