sec*_*ree 5 performance apache-spark
Spark 的时间线包含:
看来从hdfs等源读取数据的时间成本包含在Executor Computing Time. 但我不确定。
如果它在 中Executor Computing Time,我怎样才能得到它而不包括计算的时间成本。
谢谢。
很难正确区分读取操作需要多长时间,因为在读取数据时会对数据进行处理。
一个简单的最佳选择就是应用一个开销很小的简单操作(例如计数)。如果您的文件很大,则读取将在很大程度上主导琐碎的操作,特别是如果它是一种无需在节点之间打乱数据即可完成的计数(除了单值结果)。
| 归档时间: |
|
| 查看次数: |
835 次 |
| 最近记录: |