Apache Spark Ui 中的自定义指标

cra*_*rak 5 apache-spark codahale-metrics

我正在使用 Apache Spark,并且指标 UI(在 4040 上找到)非常有用。

我想知道是否可以在此 UI 中添加自定义指标、自定义任务指标,但也可能添加自定义 RDD 指标。(就像只为 RDD 转换执行时间)

按流批处理作业和任务分组自定义指标可能会很好。

我见过TaskMetrics对象,但它被标记为 dev api,它看起来只对输入或输出源有用,不支持自定义值。

有火花的方式来做到这一点吗?或者替代方案?

And*_*rea 0

您可以使用 Spark 中内置的共享变量支持 [1]。我经常使用它们来实现类似的事情。

[1] http://spark.apache.org/docs/latest/programming-guide.html#shared-variables