Apache Spark UI显示正在摄取的文件的输入大小不正确

use*_*087 5 apache-spark apache-spark-sql

我的Java spark程序摄取3.7 GB的文件.当我启动spark程序并转到端口localhost上的Spark UI时:4040加载阶段显示的输入大小是7.3 GB ??? 这真令人困惑.为什么Spark UI控制台中的输入大小几乎是实际文件大小的两倍?

在此输入图像描述

小智 5

输入尺寸:

  • 估计。
  • 不是您加载的文件的输入大小,而是加载对象的输入大小,这通常比序列化对象需要更多的内存来存储(指向实际对象的指针,用于加载数据的数据结构的开销) .