Zer*_*001 7 avro apache-spark pyspark
我正在尝试使用https://github.com/databricks/spark-avro读取 avro 文件,并且 avro 架构随着时间的推移而演变。我读了这样,mergeSchema 选项设置为true希望它会合并架构本身,但它不起作用。
sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')
Run Code Online (Sandbox Code Playgroud)
有什么工作?
Spark 中的 avro 文件未实现合并架构,并且没有简单的解决方法。一种解决方案是将 avro 数据逐个文件(或逐个分区)读取为单独的数据集,然后合并这些数据集。但这可能会非常慢。
| 归档时间: |
|
| 查看次数: |
1308 次 |
| 最近记录: |