我需要摄取大型JSON文件,其记录可能跨越多行(而不是文件)(完全取决于数据提供者如何编写它).
Elephant-Bird假设LZO压缩,我知道数据提供者不会这样做.
Dzone文章http://java.dzone.com/articles/hadoop-practice假设JSON记录将在同一行.
任何想法,除了压缩JSON ...文件将是巨大的...如何正确分割文件,使JSON不会破坏.
编辑:行,而不是文件
java json hadoop elephantbird
elephantbird ×1
hadoop ×1
java ×1
json ×1