高效读取 Spark 中的嵌套镶木地板列

Question

高效读取 Spark 中的嵌套镶木地板列

我有以下（简化的）架构：

root
 |-- event: struct (nullable = true)
 |    |-- spent: struct (nullable = true)
 |    |    |-- amount: decimal(34,3) (nullable = true)
 |    |    |-- currency: string (nullable = true)
 |    |
 |    | ... ~ 20 other struct fields on "event" level

Run Code Online (Sandbox Code Playgroud)

我正在尝试对嵌套字段求和

spark.sql("select sum(event.spent.amount) from event")

Run Code Online (Sandbox Code Playgroud)

根据火花指标，我从磁盘读取 18 GB，需要 2.5 分钟。

但是，当我选择顶级字段时：

 spark.sql("select sum(amount) from event")

Run Code Online (Sandbox Code Playgroud)

我在 4 秒内只读取了 2GB。

从物理计划中我可以看到，在嵌套结构的情况下，所有字段的整个事件结构都是从 parquet 中读取的，这是一种浪费。

Parquet 格式应该能够从嵌套结构中提供所需的列，而无需全部读取（这是列式存储的重点）。有没有办法在 Spark 中有效地做到这一点？

Answer 1

Tom*_*los 5

解决方案：

spark.sql("set spark.sql.optimizer.nestedSchemaPruning.enabled=true")
spark.sql("select sum(amount) from (select event.spent.amount as amount from event_archive)")

Run Code Online (Sandbox Code Playgroud)

查询必须以子选择方式编写。您不能将选定的列包装在聚合函数中。以下查询将破坏模式修剪：

select sum(event.spent.amount) as amount from event

Run Code Online (Sandbox Code Playgroud)

SPARK-4502涵盖了整个模式修剪工作

肮脏的解决方法也可以在加载时指定“投影模式”：

val DecimalType = DataTypes.createDecimalType(18, 4)
val schema = StructType(StructField("event", StructType(
      StructField("spent", StructType(
          StructField("amount", DecimalType, true) :: Nil
      ), true) :: Nil
    ), true) :: Nil
  )
 val df = spark.read.format("parquet").schema(schema).load(<path>)

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，5 月前
查看次数：	2002 次
最近记录：	6 年，1 月前