在 pandas 中,如何计算序列中每一列的协方差?
In pandas, how can I calculate the covariance of each column with a series?
假设我有一个数据框,df
有 10 列和几百行。这些列标记为 A、B、C、...
此外,我有一个 pandas 系列,s
包含长度相同的几百行数据。
我想做的是获取一个 DataFrame,其中包含 df
中每一行与系列 s
的协方差。类似于:
cov_s
A 0.003
B 0.0089
C 0.0032
...
J 0.0192
我想避免将 s
添加为 df
的列并执行 df.cov()
并将添加的 s
下的一列作为我的数据集合可能会变得非常大,并且做一个完整的协方差矩阵可能会有一些收敛问题(而只做一个 2 系列 cov 不会有这个问题)。关于如何实现这一点有什么想法吗?
您可以使用 apply
相当容易地获得 s 与每一列的协方差。
设置数据:
import pandas as pd
import numpy as np
np.random.seed(0)
df = pd.DataFrame(np.random.rand(20, 5), columns=list("ABCDE"))
s = pd.Series(np.random.rand(20))
print(df.head())
print()
print(s.head())
A B C D E
0 0.548814 0.715189 0.602763 0.544883 0.423655
1 0.645894 0.437587 0.891773 0.963663 0.383442
2 0.791725 0.528895 0.568045 0.925597 0.071036
3 0.087129 0.020218 0.832620 0.778157 0.870012
4 0.978618 0.799159 0.461479 0.780529 0.118274
0 0.677817
1 0.270008
2 0.735194
3 0.962189
4 0.248753
dtype: float64
使用 apply 获取协方差:
df.apply(lambda column: s.cov(column))
A -0.011373
B -0.017225
C -0.014311
D 0.004783
E 0.015021
dtype: float64
假设我有一个数据框,df
有 10 列和几百行。这些列标记为 A、B、C、...
此外,我有一个 pandas 系列,s
包含长度相同的几百行数据。
我想做的是获取一个 DataFrame,其中包含 df
中每一行与系列 s
的协方差。类似于:
cov_s
A 0.003
B 0.0089
C 0.0032
...
J 0.0192
我想避免将 s
添加为 df
的列并执行 df.cov()
并将添加的 s
下的一列作为我的数据集合可能会变得非常大,并且做一个完整的协方差矩阵可能会有一些收敛问题(而只做一个 2 系列 cov 不会有这个问题)。关于如何实现这一点有什么想法吗?
您可以使用 apply
相当容易地获得 s 与每一列的协方差。
设置数据:
import pandas as pd
import numpy as np
np.random.seed(0)
df = pd.DataFrame(np.random.rand(20, 5), columns=list("ABCDE"))
s = pd.Series(np.random.rand(20))
print(df.head())
print()
print(s.head())
A B C D E
0 0.548814 0.715189 0.602763 0.544883 0.423655
1 0.645894 0.437587 0.891773 0.963663 0.383442
2 0.791725 0.528895 0.568045 0.925597 0.071036
3 0.087129 0.020218 0.832620 0.778157 0.870012
4 0.978618 0.799159 0.461479 0.780529 0.118274
0 0.677817
1 0.270008
2 0.735194
3 0.962189
4 0.248753
dtype: float64
使用 apply 获取协方差:
df.apply(lambda column: s.cov(column))
A -0.011373
B -0.017225
C -0.014311
D 0.004783
E 0.015021
dtype: float64