如何确定数据帧与 Nan 的相关性?

How to determine correlation from dataframe with Nan?

我使用 Pandas 中的方法 DataFrame.corr()。结果它 return 相关矩阵,但它删除了甚至有一个 Nan 值的列。可以用 Nan 计算 DataFrame 中的相关性吗?

试试这个。对于我的情况,它有效

 df = df.apply(pd.to_numeric, errors='coerce')

您必须首先摆脱 NaN 值:

df2=df.dropna()

或者用意思替换它们:

df2 = df.fillna(df.mean())

或者使用像 EM(期望最大化)这样的算法进行插补。

然后你检查相关性

df2.corr()

注意:如果给定变量的缺失值率大于15%,您应该考虑将其从分析中删除