Python

Question

我正在完成一项工作，我正在尝试检查一些信息之间的相关性。

基本上我有事件幸存者的数据，我想知道其他信息与他们的生存能力之间的相关性。

所以，我有包含所有信息的主 df，然后：

       #creating a df to list who not survived(0) and another df to list who survived(1)
 Input:     df_s0 = df.query("Survived == 0")
            df_s1 = df.query("Survived == 1")

 Input:     df_s0.corr()

Answer 1

基于相关公式：

cor(a,b) = cov(a,b)/(stdev(a) * stdev(b))

如果 a 或 b 都是常数（零方差），则这两者之间的相关性未定义（除以零产生 NaN）。在您的示例中，df_s0 的 Survived 列是常量（全为零），因此此列与其他列的相关性未定义。

如果您想弄清楚离散变量（幸存）与其余特征之间的关系，您可以查看箱线图（以便能够比较不同的统计数据，如均值、IQR、... ) 跨不同组的 Survived 0 和 1 的特征。如果你想更进一步，你可以使用方差分析来描述你的特征的重要性，基于它们在不同组内和不同组之间的差异！

Python - df.corr 中的 NaN 值

Python - NaN values in df.corr

correlation

dataframe