如何在 R 中实现逻辑回归的成本敏感学习
how to implement cost sensitive learning for logistic regression in R
我有一个高度不平衡的数据集。多数与少数 class 的比率是 99:1。我想建立一个模型来准确预测少数 class。简单来说,我想执行成本敏感学习,其中假阴性的成本应高于假阳性的成本。
但我没有在 R 中找到任何用于逻辑回归的包,它会做同样的事情。
任何人都可以推荐一些具有 R 代码示例的网站文档来做同样的事情。提前致谢。
对于任何不提供成本选项的算法,您都可以对少数 class 进行过采样。例如,如果您想将它们加权 5 倍,则只需将它们过采样 5 倍即可。
有很多关于如何处理不平衡数据的文献。一般方法包括对少数class 过采样或对多数class 欠采样。此外,您还可以使用更高级的技术,例如 SMOTE,它将根据您的少数群体创建综合观察 class。
在像您这样存在高度不平衡的情况下,我发现多次对多数人进行过采样和对少数人进行欠采样的组合,这样您就可以获得可以一起平均的多个模型,从而产生良好的结果。 (基本上,这是修改bagging)
我有一个高度不平衡的数据集。多数与少数 class 的比率是 99:1。我想建立一个模型来准确预测少数 class。简单来说,我想执行成本敏感学习,其中假阴性的成本应高于假阳性的成本。 但我没有在 R 中找到任何用于逻辑回归的包,它会做同样的事情。
任何人都可以推荐一些具有 R 代码示例的网站文档来做同样的事情。提前致谢。
对于任何不提供成本选项的算法,您都可以对少数 class 进行过采样。例如,如果您想将它们加权 5 倍,则只需将它们过采样 5 倍即可。
有很多关于如何处理不平衡数据的文献。一般方法包括对少数class 过采样或对多数class 欠采样。此外,您还可以使用更高级的技术,例如 SMOTE,它将根据您的少数群体创建综合观察 class。
在像您这样存在高度不平衡的情况下,我发现多次对多数人进行过采样和对少数人进行欠采样的组合,这样您就可以获得可以一起平均的多个模型,从而产生良好的结果。 (基本上,这是修改bagging)