如何获取Spark中从hdfs读取数据的时间成本

Question

Spark 的时间线包含：

看来从hdfs等源读取数据的时间成本包含在Executor Computing Time. 但我不确定。

如果它在中Executor Computing Time，我怎样才能得到它而不包括计算的时间成本。

谢谢。

Answer 1

很难正确区分读取操作需要多长时间，因为在读取数据时会对数据进行处理。

一个简单的最佳选择就是应用一个开销很小的简单操作（例如计数）。如果您的文件很大，则读取将在很大程度上主导琐碎的操作，特别是如果它是一种无需在节点之间打乱数据即可完成的计数（除了单值结果）。