在火花数据帧中加载avro时如何合并模式？

Question

我正在尝试使用https://github.com/databricks/spark-avro读取 avro 文件，并且 avro 架构随着时间的推移而演变。我读了这样，mergeSchema 选项设置为true希望它会合并架构本身，但它不起作用。

sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')

有什么工作？

Answer 1

Spark 中的 avro 文件未实现合并架构，并且没有简单的解决方法。一种解决方案是将 avro 数据逐个文件（或逐个分区）读取为单独的数据集，然后合并这些数据集。但这可能会非常慢。