小编pat*_*ski的帖子

Databricks:Z 顺序与分区

我正在学习Databricks,我有一些关于z-order 和partitionBy 的问题。当我阅读这两个函数时,听起来非常相似。这两个函数都以某种方式对数据进行分组,以加速读取操作。另外,partitionBy 看起来很适合连接操作,但我真的不明白当我只想读取数据时应该使用什么函数。你能告诉我应该如何考虑这两个函数才能正确使用它吗?

partitioning z-order apache-spark databricks delta-lake

7
推荐指数
1
解决办法
9381
查看次数

什么是 openCostInBytes?

有人可以解释一下 Apache Spark 中的 openCostInBytes 吗?我可以在文档中看到定义,但我不明白它到底如何影响读取文件。我真的应该关心这个吗?如果是,我应该如何调整它?

apache-spark databricks

4
推荐指数
1
解决办法
1716
查看次数