布尔值和续值之间的相关性
Correlation between boolean and continues value
我在想,如果我有一个包含 3 列的 pandas 数据框。
第一个是布尔值,其他是浮点数。
如果我 运行 .corr() 在我的数据框上,应该如何解释答案?
例如:
corr_matrix = df.corr()
corr_matrix["Bought"].abs().sort_values(ascending=False)
Bought 1.000000
Price 0.283186
Price2 0.118623
可以说 "Price" 与 "Bought" 标志的相关性更高,然后会比 "Price2" 更能影响模型吗?
我如何才能决定在我的模型中使用什么价格?
您应该寻找点双序列相关 (which is a special case of Pearson correlation)。如果你真的必须在没有任何其他库的情况下使用 pandas 那么我认为 Pearson 相关性 应该 工作,只需将你的 true/false 编码为 1 和 0.
我在想,如果我有一个包含 3 列的 pandas 数据框。 第一个是布尔值,其他是浮点数。
如果我 运行 .corr() 在我的数据框上,应该如何解释答案? 例如:
corr_matrix = df.corr()
corr_matrix["Bought"].abs().sort_values(ascending=False)
Bought 1.000000
Price 0.283186
Price2 0.118623
可以说 "Price" 与 "Bought" 标志的相关性更高,然后会比 "Price2" 更能影响模型吗?
我如何才能决定在我的模型中使用什么价格?
您应该寻找点双序列相关 (which is a special case of Pearson correlation)。如果你真的必须在没有任何其他库的情况下使用 pandas 那么我认为 Pearson 相关性 应该 工作,只需将你的 true/false 编码为 1 和 0.