将时间序列数据转换为横截面数据的最有效方法是什么？

Question

事情是这样的，我有下面的数据集，其中 date 是索引：

date            value
2020-01-01      100
2020-02-01      140
2020-03-01      156
2020-04-01      161
2020-05-01      170
.
.
.

我想在另一个数据集中转换它：

value_t0    value_t1    value_t2    value_t3    value_t4 ...
100         NaN         NaN         NaN         NaN      ...
140         100         NaN         NaN         NaN      ...
156         140         100         NaN         NaN      ...
161         156         140         100         NaN      ...
170         161         156         140         100      ...

首先，我考虑使用 pandas.pivot_table 来做一些事情，但这只会提供按某些列分组的不同布局，这并不是我想要的。后来想过用pandasql，apply'case when'，但是不行，要敲几十行代码。所以我被困在这里了。

Answer 1

试试这个：

new_df = pd.DataFrame({f"value_t{i}": df['value'].shift(i) for i in range(len(df))})

系列 .shift(n) 方法可以通过将所有内容向下移动并在上方填充 NaN 来获得所需输出的单列。因此，我们正在构建一个新的数据框，方法是为其提供 {column name: column data, ...} 形式的字典，使用字典推导式遍历原始数据框。

Answer 2

我认为最好的是使用numpy

values = np.asarray(df['value'].astype(float))
new_values = np.tril(np.repeat([values], values.shape[0], axis=0).T)
new_values[np.triu_indices(new_values.shape[0], 1)] = np.nan
new_df = pd.DataFrame(new_values).add_prefix('value_t')

5000 行的次数

%%timeit
values = np.asarray(df['value'].astype(float))
new_values = np.tril(np.repeat([values], values.shape[0], axis=0).T)
new_values[np.triu_indices(new_values.shape[0],1)] = np.nan
new_df = pd.DataFrame(new_values).add_prefix('value_t')
556 ms ± 35.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
new_df = pd.DataFrame({f"value_t{i}": df['value'].shift(i) for i in range(len(df))})
1.31 s ± 36.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

时间没有add_prefix

%%timeit
values = np.asarray(df['value'].astype(float))
new_values = np.tril(np.repeat([values], values.shape[0], axis=0).T)
new_values[np.triu_indices(new_values.shape[0],1)] = np.nan
new_df = pd.DataFrame(new_values)

357 ms ± 8.09 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

将时间序列数据转换为横截面数据的最有效方法是什么？

What's the most efficient way to convert a time-series data into a cross-sectional one?

python

dataframe

pandas

data-cleaning