在多类问题上使用 xgboost 时概率低

Low probabilities when using xgboost on multiclass problem

我正在使用 xgbclassifier 对两个以上的 classes 进行文本 class化。达到约 65% 的准确度后,我研究了模型输出的概率。对于任何给定的 class,我都没有向模型展示它输出超过 0.3 的测试示例。因此,即使模型是正确的,它也会选择 class 大约 20% 的差异。

这是我应该担心的事情吗?我希望模型至少在某些情况下是确定的(因此输出大约 90%)。对输出概率有这么简单的解释吗?或者只要 class 是正确的,我就不应该担心输出概率吗?

编辑:我有大约 100 个 classes,它们也是不平衡的,大约 3 个类别占据了整个数据的 70%。尺寸或多或少呈线性减小。

数据本身是德语文本,如果有人感兴趣的话。

欢迎来到 SO! 在没有任何数据示例或代码的情况下,很难对问题所在发表评论。

您的数据中的 class 分布是什么? 举例来说,你有五个 classes 平均分布,即每个大约 20%。 然后,对于特定 class 中的某些观察结果,获得 0.20 的输出可能非常重要,即该模型非常确定此分配。

是否可以post一些数据和代码,如果数据是敏感的然后将其匿名化。