Aya*_*was 4 apache-spark parquet
我在列上使用分区来将数据存储在拼花中。但我看到没有。实木复合地板分区文件的编号与否不同。Rdd分区。rdd分区和镶木地板分区之间没有相关性吗?
当我将数据写入镶木地板分区并使用Rdd重新分区,然后从镶木地板分区读取数据时,读/写期间rdd分区号相同时是否有任何条件?
使用列ID存储数据框和通过相同的列ID重新分区数据框有何不同?
在考虑Spark中联接的性能时,我们应该考虑进行存储分区或重新分区(或两者都考虑)
您在这里要问的几件事-数据的分区,存储和平衡,
分区:
在Spark中,这是通过将df.write.partitionedBy(column*)
数据划分columns
为相同的子目录来完成的,并将数据分组。
铲斗:
Distribute By
在Spark中,这是通过将df.write.bucketBy(n, column*)
数据划分columns
为相同的文件来完成的,并将数据分组。生成的文件数由n
分区:
DataFrame
根据给定的分区表达式将给定数量的内部文件平均返回一个新的均衡。生成的DataFrame被哈希分区。在Spark中,这是通过将df.repartition(n, column*)
数据划分columns
为相同的内部分区文件来完成的,并将数据分组。请注意,没有数据可持久存储到存储中,这仅仅是基于类似于以下约束的数据内部平衡bucketBy
l
1)我在列上使用分区来将数据存储在镶木地板中。但我看到没有。实木复合地板分区文件的编号与否不同。Rdd分区。rdd分区和镶木地板分区之间没有相关性吗?
spark.sql.shuffle.partitions
和spark.default.parallelism
2)当我将数据写入镶木地板分区并使用Rdd重新分区,然后从镶木地板分区读取数据时,读/写期间rdd分区号相同时是否有任何条件?
spark.default.parallelism
3)使用列ID存储数据框和通过相同的列ID重新分区数据框有何不同?
4)在考虑Spark中联接的性能时,我们应该考虑存储分区或重新分区(或两者都可以)
repartition
这两个数据集都存在于内存中,如果其中一个或两个数据集都存在,则bucketBy
也要进行调查。 归档时间: |
|
查看次数: |
4467 次 |
最近记录: |