如何确定数据帧与 Nan 的相关性?
How to determine correlation from dataframe with Nan?
我使用 Pandas 中的方法 DataFrame.corr()。结果它 return 相关矩阵,但它删除了甚至有一个 Nan 值的列。可以用 Nan 计算 DataFrame 中的相关性吗?
试试这个。对于我的情况,它有效
df = df.apply(pd.to_numeric, errors='coerce')
您必须首先摆脱 NaN 值:
df2=df.dropna()
或者用意思替换它们:
df2 = df.fillna(df.mean())
或者使用像 EM(期望最大化)这样的算法进行插补。
然后你检查相关性
df2.corr()
注意:如果给定变量的缺失值率大于15%,您应该考虑将其从分析中删除
我使用 Pandas 中的方法 DataFrame.corr()。结果它 return 相关矩阵,但它删除了甚至有一个 Nan 值的列。可以用 Nan 计算 DataFrame 中的相关性吗?
试试这个。对于我的情况,它有效
df = df.apply(pd.to_numeric, errors='coerce')
您必须首先摆脱 NaN 值:
df2=df.dropna()
或者用意思替换它们:
df2 = df.fillna(df.mean())
或者使用像 EM(期望最大化)这样的算法进行插补。
然后你检查相关性
df2.corr()
注意:如果给定变量的缺失值率大于15%,您应该考虑将其从分析中删除