小编Pro*_*707的帖子

Spark:创建DataFrame所需的内存是否有点等于输入数据的大小?

我很难说我是否需要1TB的内存来加载基于1TB数据库表的Spark DataFrame.是这样的吗?

我被告知我在另一个问题中没有以非常火花的方式做事,因为我开始通过迭代创建DataFrames然后处理这些子集来分块数据.问题是这太慢了,因为没有足够的并行处理发生.然后根据反馈,我尝试加载一个整个表,然后使用Spark分区/分组/排序按我需要的顺序获取我需要的东西,但据我所知,它只是填满了尽可能多的内存因为我分配(在我的本地测试机器上),尽管有多达数千个分区(在我的情况下)是一个30GB的小型数据库表.

这让我很疯狂,因为我已经在过去的几周内完成了大量的搜索和阅读文章和文档,我很难找到使用Spark的实例访问我想做的事情的例子甚至称之为模糊的"大"数据集.特别是在涉及DataFrames并使用真实数据库作为输入时.另外得到反馈说我不应该手动分块任何数据让我觉得必须有一些神奇的事情发生,而不是所有数据实际上一次被选中.在这方面任何有用的资源将不胜感激.

apache-spark

3
推荐指数
1
解决办法
2197
查看次数

标签 统计

apache-spark ×1