h2o ValueError: No metric tpr

h2o ValueError: No metric tpr

当尝试使用例如

获取召回分数时
rf_model.recall()

我收到错误:

h2o ValueError: No metric tpr

我可以获得其他指标,例如准确度、AUC、精确度和 F1,但没有召回率... 这大概是一个错误。

如果我运行:

from h2o.model.metrics_base import H2OBinomialModelMetrics as bmm
reporter = bmm(rf_model.metric)
rf_model.metric('recall')

我得到:

Could not find exact threshold 0.0; using closest threshold found 0.0.

这是怎么回事?

我运行正在使用水版'h2o-3.15.0.3990'。

我遵循了 h2o 教程:

https://github.com/h2oai/h2o-tutorials/blob/master/training/h2o_algos/src/py/decision_tree_ensembles.ipynb

使用我自己的数据集时,出现了上述错误。

有什么帮助吗?

此外,如何使用 h2o 绘制精确率/召回率曲线?

谢谢

从你的第二个问题开始,Flow 有一条 precision/recall 曲线(而且它是交互式的)。每个节点的端口 54321 上的流量总是 运行,即 http://127.0.0.1:54321 如果你在本地 运行 h2o。

我想您的数据或模型中有一些有趣的东西,当您查看 precision/recall 曲线时,它会变得清晰。

在 R 中,如果您执行 str(m)(其中 m 是您的模型),您将看到所有模型数据。 m@training_metrics@metrics$thresholds_and_metric_scores$recall 保存每个阈值的召回数。

我还不知道如何查看 Python 对象内部,但是您的调用是正确的。在我的快速测试中(添加了 2 类枚举列的 iris 数据集):

m.metric("recall")

给了:

[[0.8160852636726422, 1.0]]

如果我想要所有的值,它将是这样的:

mDL.metric("recall",thresholds=[x/100.0 for x in range(1,100)])

给予:

Could not find exact threshold 0.01; using closest threshold found 0.010396965719556233.
Could not find exact threshold 0.02; using closest threshold found 0.016617060110009896.
...
Could not find exact threshold 0.92; using closest threshold found 0.9469528904679438.
Could not find exact threshold 0.93; using closest threshold found 0.9469528904679438.
Could not find exact threshold 0.94; using closest threshold found 0.9469528904679438.
Could not find exact threshold 0.95; using closest threshold found 0.9469528904679438.
Could not find exact threshold 0.96; using closest threshold found 0.9469528904679438.
Could not find exact threshold 0.97; using closest threshold found 0.9760293572153097.
Could not find exact threshold 0.98; using closest threshold found 0.9787491606489236.
Could not find exact threshold 0.99; using closest threshold found 0.9909817370067531.

[[0.01, 1.0],
 [0.02, 1.0],
 [0.03, 1.0],
 ...
 [0.87, 1.0],
 [0.88, 1.0],
 [0.89, 0.9850746268656716],
 [0.9, 0.9850746268656716],
 [0.91, 0.9850746268656716],
 [0.92, 0.9850746268656716],
 [0.93, 0.9850746268656716],
 [0.94, 0.9850746268656716],
 [0.95, 0.9850746268656716],
 [0.96, 0.9850746268656716],
 [0.97, 0.9701492537313433],
 [0.98, 0.9552238805970149],
 [0.99, 0.8955223880597015]]

(我得到了如此不寻常的输出,因为它几乎完美地学习了我的数据集 - 我怀疑这就是你发生的事情?)(我愚蠢地使我的二进制列成为其中一个输入列的直接函数,没有噪音!)