在火花数据帧中加载avro时如何合并模式?

Zer*_*001 7 avro apache-spark pyspark

我正在尝试使用https://github.com/databricks/spark-avro读取 avro 文件,并且 avro 架构随着时间的推移而演变。我读了这样,mergeSchema 选项设置为true希望它会合并架构本身,但它不起作用。

sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')
Run Code Online (Sandbox Code Playgroud)

有什么工作?

Mic*_*ski 0

Spark 中的 avro 文件未实现合并架构,并且没有简单的解决方法。一种解决方案是将 avro 数据逐个文件(或逐个分区)读取为单独的数据集,然后合并这些数据集。但这可能会非常慢。