Jer*_*emy 5 decision-tree apache-spark apache-spark-mllib
我正在使用 Spark 2.0 和新的 spark.ml。包。有没有办法调整分类阈值,以便减少误报的数量。如果重要的话,我也在使用 CrossValidator。
我看到 RandomForestClassifier 和 DecisionTreeClassifier 都输出一个概率列(我可以手动使用,但 GBTClassifier 不会。
听起来您可能正在寻找参数thresholds:
final val thresholds: DoubleArrayParam多类分类中的阈值参数,用于调整预测每个类的概率。数组的长度必须等于类的数量,且值 >= 0。预测具有最大值 p/t 的类,其中 p 是该类的原始概率,t 是该类的阈值。
您需要通过调用setThresholds(value: Array[Double])分类器来设置它。