小编Maz*_*Maz的帖子

JSON对象跨越多行,如何在Hadoop中拆分输入

我需要摄取大型JSON文件,其记录可能跨越多行(而不是文件)(完全取决于数据提供者如何编写它).

Elephant-Bird假设LZO压缩,我知道数据提供者不会这样做.

Dzone文章http://java.dzone.com/articles/hadoop-practice假设JSON记录将在同一行.

任何想法,除了压缩JSON ...文件将是巨大的...如何正确分割文件,使JSON不会破坏.

编辑:行,而不是文件

java json hadoop elephantbird

7
推荐指数
1
解决办法
3725
查看次数

标签 统计

elephantbird ×1

hadoop ×1

java ×1

json ×1