在多类问题上使用 xgboost 时概率低

Low probabilities when using xgboost on multiclass problem

我正在使用 xgbclassifier 对两个以上的 classes 进行文本 class化。达到约 65% 的准确度后，我研究了模型输出的概率。对于任何给定的 class，我都没有向模型展示它输出超过 0.3 的测试示例。因此，即使模型是正确的，它也会选择 class 大约 20% 的差异。

这是我应该担心的事情吗？我希望模型至少在某些情况下是确定的（因此输出大约 90%）。对输出概率有这么简单的解释吗？或者只要 class 是正确的，我就不应该担心输出概率吗？

编辑：我有大约 100 个 classes，它们也是不平衡的，大约 3 个类别占据了整个数据的 70%。尺寸或多或少呈线性减小。

数据本身是德语文本，如果有人感兴趣的话。

欢迎来到 SO！在没有任何数据示例或代码的情况下，很难对问题所在发表评论。

您的数据中的 class 分布是什么？举例来说，你有五个 classes 平均分布，即每个大约 20%。然后，对于特定 class 中的某些观察结果，获得 0.20 的输出可能非常重要，即该模型非常确定此分配。

是否可以post一些数据和代码，如果数据是敏感的然后将其匿名化。