目前我们正在生产中使用Avro数据格式.在Avro的N个优点中,我们知道它在模式演化方面很有用.
现在我们正在评估Parquet格式,因为它在阅读随机列时具有很高的效率.所以在继续前进之前我们关心的是架构演变!
有谁知道,如果模式演化是可能的实木复合地板,如果是如何,如果没有为什么.一些演示文稿说它是可能的但是只能在最后添加列
这是什么意思?
hadoop data-warehouse avro apache-spark parquet
我们可以在从HDFS读取数据时使用DataFrame.我在HDFS中有一个制表符分隔数据.
我用Google搜索,但看到它可以与NoSQL数据一起使用
apache-spark spark-dataframe
apache-spark ×2
avro ×1
data-warehouse ×1
hadoop ×1
parquet ×1
spark-dataframe ×1