使用插值标准化 Pandas 中的时间序列

Question

第一次来，加油！

与变量类型略有不同的问题相关：

我收集了传感器数据，我的时间戳非常不规则，我希望它们保持一致的 1 分钟间隔。保存分布并在每分钟都有数据的唯一方法是插值。

数据集有一百万行，但这是 header 预览（ISO 时间戳中的传感器记录）：

   Raw                             DataValue
0 2016-05-01T00:00:59.3+10:00    354.9819946
1 2016-05-01T00:02:59.4+10:00    354.9819946
2 2016-05-01T00:03:59.4+10:00    350.6199951
3 2016-05-01T00:13:00.1+10:00    351.4880066
4 2016-05-01T00:22:00.5+10:00    352.9719849
5 2016-05-01T00:31:01.1+10:00    352.0710144

我当前的代码如下，我正在使用 pandas 和 numpy：

data = 
pd.read_csv('C:/Users/user/Documents/Data/cleaneddata1.csv', 
parse_dates=True)

data['Raw'].index = pd.to_datetime(data['Raw'].index)

d = data.set_index('Raw')
t = d.index
r = pd.date_range(t.min().date(), periods=(len(data)), freq='T')

d.reindex(t.union(r)).interpolate('index').ix[r]

不行，它returns

r = pd.date_range(t.min().date(), periods=(len(data)), freq='T') AttributeError: 'str' object 没有属性 'date'

这让我抓狂，我不确定它所指的 'str' 是否与 ISO 时间戳相关联。

Answer 1

您正在寻找：

data['Raw'] = pd.to_datetime(data['Raw'])

Raw 是一列，data['Raw'] returns 是一个系列，您要使用它（不是它的索引）。完成后，我建议使用 df.resample:

进行插值

data = data.set_index('Raw').resample('1min').mean()

如果您仍想使用 interpolate，则可以改用 .agg(interpolate)。

由于您想保留原来的 Raw 列，您可以改用：

data = data.assign(RawDt=pd.to_datetime(data.Raw))\
       .groupby(pd.Grouper(key='RawDt', freq='1min'))\
       .agg({'DataValue' : 'mean', 'Raw' : 'first'}).reset_index(drop=True)

使用插值标准化 Pandas 中的时间序列

Standardizing timeseries in Pandas using interpolation

python

datetime

numpy

pandas

sensors