镶木地板谓词下推

jbr*_*own 6 hadoop bigdata apache-spark parquet

镶木地板的谓词下推是否意味着只有所需的数据实际上是从磁盘加载的?

例如,如果我创建一个火花数据帧并且只创建select特定字段,那么只能从磁盘读取这些字段吗?

roe*_*oee 8

谓词下推处理要扫描的值而不是列.因此,如果在A列上应用过滤器仅返回值为V的记录,则谓词下推将使镶木地板只读块可能包含值V.Plaquet将几个级别的最小/最大统计数据保存,并将比较值V到那些最小/最大标题,并且只扫描最小值/最大值包含值V的块.这用于谓词下推.

镶木地板的另一个问题是"投影下推" - 它将数据存储在列中,因此当您的投影将查询限制为某些列时,只会返回这些列.此功能不是所谓的谓词下推.