h2o.predict() 在新测试集上使用哪个阈值？

Question

我在这里阅读了几个关于 h2o.predict() 和 h2o.performance() 差异的线程（如下面的链接所示）。

有人能告诉我 h2o.predict() 使用哪个阈值吗？是max f1吗？如果是，它是来自训练数据、验证数据或交叉验证的阈值吗？

我尝试在测试集上使用max f1和使用验证阈值max f0point5（与训练和验证数据完全分开），但是来自 h2o.predict() 的预测类和使用阈值的类不完全匹配。

我得到的最接近的是使用max f0point5训练中的阈值并将其应用于测试集。

关于 h2o.predict 的文档并不多。另外，是否有阈值的最佳实践，即验证和培训的平均阈值等？

提前致谢！

Answer 1

以下是用户运行h2o.predict()或时如何选择预测阈值的细节.predict()：

1) 如果您仅使用训练数据训练模型 - 使用训练数据模型指标中的 Max F1 阈值。

2) 如果您使用训练和验证数据训练模型 - 使用验证数据模型指标中的 Max F1 阈值。

3) 如果您使用训练数据训练模型并设置 nfold 参数 - 使用训练数据模型指标中的 Max F1 阈值。

4) 如果您使用训练数据、验证数据训练模型并设置 nfold 参数 - 使用验证数据模型指标中的 Max F1 阈值。