按组重新索引 Pandas 个时间序列

Reindexing Pandas Timeseries by group

所以我想做的是重新索引一个 DataFrame,它在框架内有一堆独立的组。每个都有自己的索引,我想在其中添加月末索引。我认为最好举个例子:

鉴于此 DataFrame:

In [72]: a = {'2014-01-02': {'A': 1}, '2014-02-03': {'A': 1}, '2014-03-05': {'A': 1}}

In [74]: b = {'2015-01-02': {'A': 2}, '2015-02-03': {'A': 2}, '2015-03-05': {'A': 2}}
In [76]: pd.DataFrame.from_dict(a,orient='index').append(pd.DataFrame.from_dict(b,orient='index'))
Out[76]:
            A
2014-01-02  1
2014-02-03  1
2014-03-05  1
2015-01-02  2
2015-02-03  2
2015-03-05  2

(注意 2014 年与 2015 年的对比)

我想获取 'A' 列中的两个组,并对每个组重新编制索引以包括每个组的月末,从索引的最大值之后的最小值到月末。我想要这样的输出:

            A
2014-01-02  1
2014-01-31  1
2014-02-03  1
2014-02-28  1
2014-03-05  1
2014-03-31  1
2015-01-02  2
2015-01-31  2
2015-02-03  2
2015-02-28  2
2015-03-05  2
2015-03-31  2

首先,给你的数据框一个别名

df = pd.DataFrame.from_dict(a,orient='index').append(pd.DataFrame.from_dict(b,orient='index'))

接下来,将行名称重置为索引

df.reset_index(level=0, inplace=True)

现在,检查数据框的索引

list(df.columns.values)

这现在是多索引的,因此 "A" 是一个索引,聚合函数将根据该附加索引级别运行。

In [59]:
df.index = pd.to_datetime(df.index , format = '%Y-%m-%d')
df
Out[59]:
            A
2014-01-02  1
2014-02-03  1
2014-03-05  1
2015-01-02  2
2015-02-03  2
2015-03-05  2

In [61]:
month_end = df.resample('M').dropna()
month_end
Out[61]:
            A
2014-01-31  1
2014-02-28  1
2014-03-31  1
2015-01-31  2
2015-02-28  2
2015-03-31  2

In [64]:
pd.concat([df , month_end]).sortlevel(0)
Out[64]:
            A
2014-01-02  1
2014-01-31  1
2014-02-03  1
2014-02-28  1
2014-03-05  1
2014-03-31  1
2015-01-02  2
2015-01-31  2
2015-02-03  2
2015-02-28  2
2015-03-05  2
2015-03-31  2