小编Arp*_*Rai的帖子

当文件无法适应spark的主内存时,spark如何读取大文件(petabyte)

在这些情况下,大文件会发生什么?

1)Spark从NameNode获取数据的位置.Spark会在同一时间停止,因为根据NameNode的信息,数据大小太长了吗?

2)Spark根据datanode块大小进行数据分区,但是所有数据都不能存储到主存储器中.这里我们没有使用StorageLevel.那么这里会发生什么?

3)Spark对数据进行分区,一旦主存储器的数据再次处理,一些数据将存储在主存储器上,spark将从光盘加载其他数据.

partition apache-spark rdd

9
推荐指数
2
解决办法
9882
查看次数

标签 统计

apache-spark ×1

partition ×1

rdd ×1