Python - df.corr 中的 NaN 值

Python - NaN values in df.corr

我正在完成一项工作,我正在尝试检查一些信息之间的相关性。

基本上我有事件幸存者的数据,我想知道其他信息与他们的生存能力之间的相关性。

所以,我有包含所有信息的主 df,然后:

       #creating a df to list who not survived(0) and another df to list who survived(1)
 Input:     df_s0 = df.query("Survived == 0")
            df_s1 = df.query("Survived == 1")

 Input:     df_s0.corr()

基于相关公式:

cor(a,b) = cov(a,b)/(stdev(a) * stdev(b))

如果 a 或 b 都是常数(零方差),则这两者之间的相关性未定义(除以零产生 NaN)。 在您的示例中,df_s0Survived 列是常量(全为零),因此此列与其他列的相关性未定义。

如果您想弄清楚离散变量(幸存)与其余特征之间的关系,您可以查看箱线图(以便能够比较不同的统计数据,如均值、IQR、... ) 跨不同组的 Survived 0 和 1 的特征。如果你想更进一步,你可以使用方差分析来描述你的特征的重要性,基于它们在不同组内和不同组之间的差异!