如何获取Spark中从hdfs读取数据的时间成本

sec*_*ree 5 performance apache-spark

Spark 的时间线包含:

  1. 调度程序延迟
  2. 任务反序列化时间
  3. 随机播放阅读时间
  4. 执行器计算时间
  5. 随机写入时间
  6. 结果序列化时间
  7. 获取结果时间

看来从hdfs等源读取数据的时间成本包含在Executor Computing Time. 但我不确定。

如果它在 中Executor Computing Time,我怎样才能得到它而不包括计算的时间成本。

谢谢。

Joh*_*0te 0

很难正确区分读取操作需要多长时间,因为在读取数据时会对数据进行处理。

一个简单的最佳选择就是应用一个开销很小的简单操作(例如计数)。如果您的文件很大,则读取将在很大程度上主导琐碎的操作,特别是如果它是一种无需在节点之间打乱数据即可完成的计数(除了单值结果)。