如何使用 Spark 决策树调整分类阈值

Jer*_*emy 5 decision-tree apache-spark apache-spark-mllib

我正在使用 Spark 2.0 和新的 spark.ml。包。有没有办法调整分类阈值,以便减少误报的数量。如果重要的话,我也在使用 CrossValidator。

我看到 RandomForestClassifier 和 DecisionTreeClassifier 都输出一个概率列(我可以手动使用,但 GBTClassifier 不会。

Chr*_*ove 3

听起来您可能正在寻找参数thresholds

final val thresholds: DoubleArrayParam

多类分类中的阈值参数,用于调整预测每个类的概率。数组的长度必须等于类的数量,且值 >= 0。预测具有最大值 p/t 的类,其中 p 是该类的原始概率,t 是该类的阈值。

您需要通过调用setThresholds(value: Array[Double])分类器来设置它。