如何使用 Spark 决策树调整分类阈值

Question

我正在使用 Spark 2.0 和新的 spark.ml。包。有没有办法调整分类阈值，以便减少误报的数量。如果重要的话，我也在使用 CrossValidator。

我看到 RandomForestClassifier 和 DecisionTreeClassifier 都输出一个概率列（我可以手动使用，但 GBTClassifier 不会。

Answer 1

听起来您可能正在寻找参数thresholds：

final val thresholds: DoubleArrayParam

多类分类中的阈值参数，用于调整预测每个类的概率。数组的长度必须等于类的数量，且值 >= 0。预测具有最大值 p/t 的类，其中 p 是该类的原始概率，t 是该类的阈值。

您需要通过调用setThresholds(value: Array[Double])分类器来设置它。