流式传输JSON数据,在S3中保存为Parquet

use*_*949 6 json avro amazon-kinesis parquet

我有一个生成JSON的Kinesis流,并希望使用Storm以Parquet格式写入S3.这种方法需要在流处理期间从JSON - > Avro - > Parquet进行转换.此外,我需要处理这种方法中的模式演变,并不断更新avro架构和avsc生成的java类.

另一个选择是直接在S3中编写JSON并使用Spark将存储的文件转换为镶木地板.在这种情况下,Spark可以处理模式演变.

我想得到两种方法的利弊.另外,还有其他更好的方法可以处理json中的模式演变 - > avro - >镶木地板转换管道吗?