为什么特征会增加 R2 而不会影响预测?
Why do features increase R2 but not affect predictions?
我创建了一个机器学习模型来预测短期租金的每日费率。我有大约两千行关于具有大量特征的短期租赁的 csv 数据。
但是,影响预测每日房价的唯一特征是卧室数量和 属性 类型(公寓、住宅等)。起初这对我来说很有意义,直到我看到从模型中删除这些特征会降低 R2。带有游泳池作为设施的 属性 不会收取更多费用,这似乎也很奇怪。我曾尝试更改估算器和一些特征工程以增加 R2 无济于事。
有人可以解释为什么我的模型对于不影响预测的特征具有较低的 R2 吗?我还有哪些其他选择可以提高准确性?
添加更多功能会增加 R-squared 值,而删除功能会减少 R-squared 值。 R-squared 是评估回归模型的误导性措施。尝试调整 R-squared 分数来评估模型。如果您已将 R-squared 值调整为大于 0.50,那么您可以依赖该模型,否则它将只是一个垃圾模型。
我创建了一个机器学习模型来预测短期租金的每日费率。我有大约两千行关于具有大量特征的短期租赁的 csv 数据。
但是,影响预测每日房价的唯一特征是卧室数量和 属性 类型(公寓、住宅等)。起初这对我来说很有意义,直到我看到从模型中删除这些特征会降低 R2。带有游泳池作为设施的 属性 不会收取更多费用,这似乎也很奇怪。我曾尝试更改估算器和一些特征工程以增加 R2 无济于事。
有人可以解释为什么我的模型对于不影响预测的特征具有较低的 R2 吗?我还有哪些其他选择可以提高准确性?
添加更多功能会增加 R-squared 值,而删除功能会减少 R-squared 值。 R-squared 是评估回归模型的误导性措施。尝试调整 R-squared 分数来评估模型。如果您已将 R-squared 值调整为大于 0.50,那么您可以依赖该模型,否则它将只是一个垃圾模型。