如何从Spark ml lib中的交叉验证中获得准确度,召回率和ROC?

use*_*479 8 scala machine-learning apache-spark precision-recall

我正在使用Spark 2.0.2.我也使用"ml"库进行数据集机器学习.我想要做的是运行交叉验证算法并提取所提到的指标(准确性,精确度,召回率,ROC,混淆矩阵).我的数据标签是二进制的.

通过使用MulticlassClassificationEvaluator,我只能通过访问"avgMetrics"来获得算法的准确性.此外,通过使用BinaryClassificationEvaluator,我可以获得ROC下的区域.但我不能同时使用它们.那么,有没有办法可以提取所有想要的指标?

Dar*_*han 1

您可以遵循Apache Spark 提供的官方评估指标指南。该文件提供了所有评估指标,包括

  • 精确度(阳性预测值)、召回率(真阳性率)、F 测量、接收器操作特性 (ROC)、ROC 曲线下面积、精确度-召回率曲线下面积。

这是链接:https ://spark.apache.org/docs/latest/mllib-evaluation-metrics.html

  • 谢谢,但这是基于 RDD 的,它使用“mllib”库。我使用数据帧和数据集以及“ml”库。 (7认同)