相关疑难解决方法(0)

在Spark SQL中自动且优雅地展平DataFrame

所有,

是否有一种优雅且可接受的方式来使用嵌套的列展平Spark SQL表(Parquet) StructType

例如

如果我的架构是:

foo
 |_bar
 |_baz
x
y
z

Run Code Online (Sandbox Code Playgroud)

如何在不依靠手动运行的情况下将其选择为展平的表格形式

df.select("foo.bar","foo.baz","x","y","z")

Run Code Online (Sandbox Code Playgroud)

换句话说,如何在a StructType和a下以编程方式获得上述代码的结果DataFrame

scala apache-spark apache-spark-sql

ech*_*hen

lucky-day

37
推荐指数

4
解决办法

3万
查看次数

展平嵌套的Spark Dataframe

有没有办法压缩任意嵌套的Spark Dataframe？我所看到的大多数工作都是针对特定的模式编写的,我希望能够通过不同的嵌套类型(例如StructType,ArrayType,MapType等)来泛化一个Dataframe.

假设我有一个类似的架构:

StructType(List(StructField(field1,...), StructField(field2,...), ArrayType(StructType(List(StructField(nested_field1,...), StructField(nested_field2,...)),nested_array,...)))

Run Code Online (Sandbox Code Playgroud)

希望将其调整为具有如下结构的平台:

field1
field2
nested_array.nested_field1
nested_array.nested_field2

Run Code Online (Sandbox Code Playgroud)

仅供参考,寻找Pyspark的建议,但其他风味的Spark也值得赞赏.

apache-spark pyspark spark-dataframe

Joh*_*ohn

2015 12-15

7
推荐指数

3
解决办法

1万
查看次数

标签统计

apache-spark ×2

apache-spark-sql ×1

pyspark ×1

scala ×1

spark-dataframe ×1

在Spark SQL中自动且优雅地展平DataFrame

展平嵌套的Spark Dataframe

标签 统计

标签统计