Python - df.corr 中的 NaN 值
Python - NaN values in df.corr
我正在完成一项工作,我正在尝试检查一些信息之间的相关性。
基本上我有事件幸存者的数据,我想知道其他信息与他们的生存能力之间的相关性。
所以,我有包含所有信息的主 df,然后:
#creating a df to list who not survived(0) and another df to list who survived(1)
Input: df_s0 = df.query("Survived == 0")
df_s1 = df.query("Survived == 1")
Input: df_s0.corr()
基于相关公式:
cor(a,b) = cov(a,b)/(stdev(a) * stdev(b))
如果 a 或 b 都是常数(零方差),则这两者之间的相关性未定义(除以零产生 NaN)。
在您的示例中,df_s0
的 Survived
列是常量(全为零),因此此列与其他列的相关性未定义。
如果您想弄清楚离散变量(幸存)与其余特征之间的关系,您可以查看箱线图(以便能够比较不同的统计数据,如均值、IQR、... ) 跨不同组的 Survived 0 和 1 的特征。如果你想更进一步,你可以使用方差分析来描述你的特征的重要性,基于它们在不同组内和不同组之间的差异!
我正在完成一项工作,我正在尝试检查一些信息之间的相关性。
基本上我有事件幸存者的数据,我想知道其他信息与他们的生存能力之间的相关性。
所以,我有包含所有信息的主 df,然后:
#creating a df to list who not survived(0) and another df to list who survived(1)
Input: df_s0 = df.query("Survived == 0")
df_s1 = df.query("Survived == 1")
Input: df_s0.corr()
基于相关公式:
cor(a,b) = cov(a,b)/(stdev(a) * stdev(b))
如果 a 或 b 都是常数(零方差),则这两者之间的相关性未定义(除以零产生 NaN)。
在您的示例中,df_s0
的 Survived
列是常量(全为零),因此此列与其他列的相关性未定义。
如果您想弄清楚离散变量(幸存)与其余特征之间的关系,您可以查看箱线图(以便能够比较不同的统计数据,如均值、IQR、... ) 跨不同组的 Survived 0 和 1 的特征。如果你想更进一步,你可以使用方差分析来描述你的特征的重要性,基于它们在不同组内和不同组之间的差异!