bey*_*tdr 5 indexing apache-spark-sql databricks delta-lake
对 Databricks 中的索引如何工作感到好奇。您能否将分区视为索引,因为它有效地将数据组织在分组的子类别中?
Ale*_*Ott 6
是的,分区可以被视为一种索引 - 它允许您直接跳转到必要的数据,而无需读取整个数据集。
对于 databricks delta,还有另一个功能 -数据跳过。当将数据写入 Delta 时,写入器会收集前 N 列(默认为 32)的统计信息(例如,最小值和最大值)并将该统计信息写入 Delta 日志,因此当我们按索引列过滤数据时,我们知道是否给定文件可能包含或不包含给定数据。databricks delta 的另一种索引技术是布隆过滤,它显示特定值是否绝对不在文件中,或者可能在文件中。
2022 年 4 月 14 日更新:从版本 1.2.0 开始,OSS Delta 中也提供了数据跳过功能
归档时间:
4 年,5 月 前
查看次数:
9968 次
最近记录:
2 年,2 月 前