Apache Spark UI显示正在摄取的文件的输入大小不正确

use*_*087 5 apache-spark apache-spark-sql

我的Java spark程序摄取3.7 GB的文件.当我启动spark程序并转到端口localhost上的Spark UI时:4040加载阶段显示的输入大小是7.3 GB ??? 这真令人困惑.为什么Spark UI控制台中的输入大小几乎是实际文件大小的两倍？

输入尺寸：

估计。
不是您加载的文件的输入大小，而是加载对象的输入大小，这通常比序列化对象需要更多的内存来存储（指向实际对象的指针，用于加载数据的数据结构的开销） .

归档时间：	7 年，4 月前
查看次数：	184 次
最近记录：	7 年，4 月前

Java中字符串的字节数 156

更多相关链接

如何停止火花流媒体工作？ 28

Spark 1.5.2:org.apache.spark.sql.AnalysisException:unresolved operator'Union; 16

在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？ 14

本地spark会话中的Spark URL无效 11

Spark 2.1 - 实例化HiveSessionState时出错 8

spark-如何使用RowMatrix计算相似度后检索项目对 7

如何使用nohup从文件中执行spark-shell？ 3

Spark 结构化流未授权访问组 2

2 个列表和/或 1 个二维数组的 udf 声明 1

在列表中定义的列上过滤数据框 0

为什么HTML认为"chucknorris"是一种颜色？ 7264

电话和申请有什么区别？ 3012

为什么打印"B"比打印"#"要慢得多？ 2662

使当前的Git分支成为主分支 1555

在C++中将int转换为字符串的最简单方法 1488

计算C#中的相对时间 1461

如何在SQL SELECT中执行IF ... THEN？ 1438

适用于PDF文件的MIME媒体类型 1229

如何使用Python连接MySQL数据库？ 1117

"静态"在C中意味着什么？ 1062