小编Aja*_*ala的帖子

如何检索从Spark UI写入的输出大小和记录等指标?

如何在任务或作业完成后立即在控制台(Spark Shell或Spark提交作业)上收集这些指标.

我们使用Spark将数据从Mysql加载到Cassandra并且它非常庞大(例如:~200 GB和600M行).当任务完成后,我们想验证火花过程究竟完成了多少行?我们可以从Spark UI获取数字,但是如何从spark shell或spark-submit作业中检索该数字("Output Records Written").

示例命令从Mysql加载到Cassandra.

val pt = sqlcontext.read.format("jdbc").option("url", "jdbc:mysql://...:3306/...").option("driver", "com.mysql.jdbc.Driver").option("dbtable", "payment_types").option("user", "hadoop").option("password", "...").load()

pt.save("org.apache.spark.sql.cassandra",SaveMode.Overwrite,options = Map( "table" -> "payment_types", "keyspace" -> "test"))
Run Code Online (Sandbox Code Playgroud)

我想在上面的任务中检索所有Spark UI指标,主要是输出大小和记录写入.

请帮忙.

谢谢你的时间!

apache-spark codahale-metrics apache-spark-sql spark-cassandra-connector spark-dataframe

10
推荐指数
1
解决办法
2200
查看次数