根据来自其他来源的数据的时间频率插入每小时数据
Interpolate hourly data based on time frequency of data from other source
我正在寻找根据其他数据源的时间频率以每小时频率插入可用数据的建议。
例如:
我有一个数据框,其中包含如下所述的每小时频率的天气测量值,以及间隔约 4 到 5 分钟的传感器读数。所以,我想根据传感器从其他数据源读取的时间频率转换我的天气测量值。
可以 pandas 代替 pyspark 用于此目的吗?我知道那里有一些功能。谢谢
天气测量:
+----------+----------------------+
|Wind_speed|Forecast_Time |
+----------+----------------------+
|22 |2019-01-29T15:00:00+00|
|17 |2019-01-29T16:00:00+00|
|23 |2019-01-29T17:00:00+00|
|11 |2019-01-29T18:00:00+00|
|10 |2019-01-29T19:00:00+00|
+----------+----------------------+
传感器读数:
+----------------------+-----------+------+
|DateTime |Total count|Avail |
+----------------------+-----------+------+
|2019-01-29T15:24:02+00|45 |350 |
|2019-01-29T15:20:19+00|511 |710 |
|2019-01-29T15:24:02+00|131 |352 |
|2019-01-29T15:24:02+00|134 |376 |
|2019-01-29T15:24:02+00|69 |436 |
|2019-01-29T15:20:24+00|472 |935 |
|2019-01-29T15:24:06+00|138 |330 |
|2019-01-29T15:24:06+00|415 |749 |
|2019-01-29T15:29:02+00|45 |350 |
|2019-01-29T15:20:19+00|511 |710 |
+----------------------+-----------+------+
结果可能是这样的:
+----------+----------------------+
|Wind_speed|Forecast_Time |
+----------+----------------------+
|22 |2019-01-29T15:24:02+00|
|17 |2019-01-29T15:20:01+00|
|17 |2019-01-29T15:24:00+00|
|11 |2019-01-29T15:29:06+00|
|10 |2019-01-29T15:20:00+00|
+----------+----------------------+
如果你知道如何在 pandas 中做到这一点,那么只需创建函数并使用 pandas_udf
我正在寻找根据其他数据源的时间频率以每小时频率插入可用数据的建议。
例如:
我有一个数据框,其中包含如下所述的每小时频率的天气测量值,以及间隔约 4 到 5 分钟的传感器读数。所以,我想根据传感器从其他数据源读取的时间频率转换我的天气测量值。
可以 pandas 代替 pyspark 用于此目的吗?我知道那里有一些功能。谢谢 天气测量:
+----------+----------------------+
|Wind_speed|Forecast_Time |
+----------+----------------------+
|22 |2019-01-29T15:00:00+00|
|17 |2019-01-29T16:00:00+00|
|23 |2019-01-29T17:00:00+00|
|11 |2019-01-29T18:00:00+00|
|10 |2019-01-29T19:00:00+00|
+----------+----------------------+
传感器读数:
+----------------------+-----------+------+
|DateTime |Total count|Avail |
+----------------------+-----------+------+
|2019-01-29T15:24:02+00|45 |350 |
|2019-01-29T15:20:19+00|511 |710 |
|2019-01-29T15:24:02+00|131 |352 |
|2019-01-29T15:24:02+00|134 |376 |
|2019-01-29T15:24:02+00|69 |436 |
|2019-01-29T15:20:24+00|472 |935 |
|2019-01-29T15:24:06+00|138 |330 |
|2019-01-29T15:24:06+00|415 |749 |
|2019-01-29T15:29:02+00|45 |350 |
|2019-01-29T15:20:19+00|511 |710 |
+----------------------+-----------+------+
结果可能是这样的:
+----------+----------------------+
|Wind_speed|Forecast_Time |
+----------+----------------------+
|22 |2019-01-29T15:24:02+00|
|17 |2019-01-29T15:20:01+00|
|17 |2019-01-29T15:24:00+00|
|11 |2019-01-29T15:29:06+00|
|10 |2019-01-29T15:20:00+00|
+----------+----------------------+
如果你知道如何在 pandas 中做到这一点,那么只需创建函数并使用 pandas_udf