h2o 中的预测方法 - 在分类的情况下预测列意味着什么

predict method in h2o - what does predict column mean in case of classificication

这是我的代码(简单的 h2o 分类问题)

library(h2o)
h2o.init()
df_h2o <- as.h2o(Titanic)
y <- "Survived"
x <- setdiff(names(df_h2o), y)
model_test <- h2o.gbm(training_frame = df_h2o, x = x, y = y)
pred_model_test <- h2o.predict(object = model_test, newdata = df_h2o)
as.data.frame(pred_model_test)

最后一行的部分输出:

predict        No       Yes
1       No 0.6665519 0.3334481
2       No 0.7618396 0.2381604
3      Yes 0.3836010 0.6163990
4       No 0.6665519 0.3334481
5       No 0.6665519 0.3334481
6       No 0.7618396 0.2381604
7      Yes 0.3836010 0.6163990
8       No 0.6665519 0.3334481
9      Yes 0.4391064 0.5608936
10     Yes 0.5561055 0.4438945
11     Yes 0.5684065 0.4315935

第11行预测列有Yes,而Yes的概率只有0.4315935。那么预测列中的值是多少?

查看文档 here

预测阈值

对于分类问题,当运行 h2o.predict()或.predict()时,预测阈值选择如下:

如果您仅使用训练数据训练模型,则使用训练数据模型指标中的最大 F1 阈值。 如果您使用训练数据和验证数据训练模型,则会使用验证数据模型指标中的最大 F1 阈值。 如果您使用训练数据训练模型并设置 nfold 参数,则会使用训练数据模型指标中的 Max F1 阈值。 如果您使用训练数据和验证数据训练模型并设置 nfold 参数,则会使用验证数据模型指标中的 Max F1 阈值。