布尔值和续值之间的相关性

Correlation between boolean and continues value

我在想,如果我有一个包含 3 列的 pandas 数据框。 第一个是布尔值,其他是浮点数。

如果我 运行 .corr() 在我的数据框上,应该如何解释答案? 例如:

corr_matrix = df.corr()
corr_matrix["Bought"].abs().sort_values(ascending=False)

Bought         1.000000
Price          0.283186
Price2         0.118623

可以说 "Price" 与 "Bought" 标志的相关性更高,然后会比 "Price2" 更能影响模型吗?

我如何才能决定在我的模型中使用什么价格?

您应该寻找点双序列相关 (which is a special case of Pearson correlation)。如果你真的必须在没有任何其他库的情况下使用 pandas 那么我认为 Pearson 相关性 应该 工作,只需将你的 true/false 编码为 1 和 0.