我正在学习Databricks,我有一些关于z-order 和partitionBy 的问题。当我阅读这两个函数时,听起来非常相似。这两个函数都以某种方式对数据进行分组,以加速读取操作。另外,partitionBy 看起来很适合连接操作,但我真的不明白当我只想读取数据时应该使用什么函数。你能告诉我应该如何考虑这两个函数才能正确使用它吗?
有人可以解释一下 Apache Spark 中的 openCostInBytes 吗?我可以在文档中看到定义,但我不明白它到底如何影响读取文件。我真的应该关心这个吗?如果是,我应该如何调整它?