流式传输JSON数据,在S3中保存为Parquet

use*_*949 6 json avro amazon-kinesis parquet

我有一个生成JSON的Kinesis流,并希望使用Storm以Parquet格式写入S3.这种方法需要在流处理期间从JSON - > Avro - > Parquet进行转换.此外,我需要处理这种方法中的模式演变,并不断更新avro架构和avsc生成的java类.

另一个选择是直接在S3中编写JSON并使用Spark将存储的文件转换为镶木地板.在这种情况下,Spark可以处理模式演变.

我想得到两种方法的利弊.另外,还有其他更好的方法可以处理json中的模式演变 - > avro - >镶木地板转换管道吗？

归档时间：	10 年，4 月前
查看次数：	828 次
最近记录：	10 年，4 月前

如何使用Node.js返回复杂的JSON响应？ 81

JSON模式draft4 VS JSON模式draft3 18

未捕获的SyntaxError:意外的令牌<在Chrome上 18

在JAVA(org.json)中从字符串创建JSONObject 14

接收NPM错误:离子3项目中位置20938处的JSON中的意外字符串 13

我应该在Android应用程序中使用XML或JSON作为数据格式吗？ 9

龙卷风写一个Jsonp对象 9

使用Spring RestTemplate将嵌套的JSON对象映射到Java类 9

你能在Avro JSON架构文件中添加评论吗？ 8

使用Alamofire的Google搜索失败(iOS,Swift,JSON,HTML) 7

为什么减去这两次(在1927年)给出一个奇怪的结果？ 6628

如何在Git中克隆所有远程分支？ 3987

如何按值对字典进行排序？ 3424

如何在特定索引(JavaScript)的数组中插入项？ 2709

带请求正文的HTTP GET 1896

ListView中的图像延迟加载 1881

ORM(对象关系映射)中的"N + 1选择问题"是什么？ 1507

为什么将0.1f改为0会使性能降低10倍？ 1491

为什么不从List <T>继承？ 1299

如何在Android应用程序中的活动之间传递数据？ 1293