在 pandas 中，如何计算序列中每一列的协方差？

Question

假设我有一个数据框，df 有 10 列和几百行。这些列标记为 A、B、C、... 此外，我有一个 pandas 系列，s 包含长度相同的几百行数据。

我想做的是获取一个 DataFrame，其中包含 df 中每一行与系列 s 的协方差。类似于：

       cov_s
    A  0.003
    B  0.0089
    C  0.0032
    ...
    J  0.0192

我想避免将 s 添加为 df 的列并执行 df.cov() 并将添加的 s 下的一列作为我的数据集合可能会变得非常大，并且做一个完整的协方差矩阵可能会有一些收敛问题（而只做一个 2 系列 cov 不会有这个问题）。关于如何实现这一点有什么想法吗？

Answer 1

您可以使用 apply 相当容易地获得 s 与每一列的协方差。

设置数据：

import pandas as pd
import numpy as np
np.random.seed(0)

df = pd.DataFrame(np.random.rand(20, 5), columns=list("ABCDE"))
s = pd.Series(np.random.rand(20))

print(df.head())
print()
print(s.head())
          A         B         C         D         E
0  0.548814  0.715189  0.602763  0.544883  0.423655
1  0.645894  0.437587  0.891773  0.963663  0.383442
2  0.791725  0.528895  0.568045  0.925597  0.071036
3  0.087129  0.020218  0.832620  0.778157  0.870012
4  0.978618  0.799159  0.461479  0.780529  0.118274

0    0.677817
1    0.270008
2    0.735194
3    0.962189
4    0.248753
dtype: float64

使用 apply 获取协方差：

df.apply(lambda column: s.cov(column))
A   -0.011373
B   -0.017225
C   -0.014311
D    0.004783
E    0.015021
dtype: float64

在 pandas 中，如何计算序列中每一列的协方差？

In pandas, how can I calculate the covariance of each column with a series?

python

covariance

dataframe

pandas