如何使用Pig从列中解析JSON字符串

Fab*_*ini 5 logging hadoop apache-pig bigdata

我有tsv日志文件,其中列由json字符串填充.

我想在Pig脚本中使用JsonLoader解析该列.我看到很多例子,其中JsonLoader用于每行只是一个json字符串的情况.我还有其他要删除的列,我不知道该怎么做.

该文件如下所示:

foo    bar    {"version":1; "type":"an event"; "count": 1}
foo    bar    {"version":1; "type":"another event"; "count": 1}
Run Code Online (Sandbox Code Playgroud)

我怎样才能做到这一点?

小智 0

查看 Elephantbird(Twitter 的 Hadoop 相关库)——他们有一个名为 JsonStringToMap 的 UDF,它完全可以满足您的需求(获取字符串并将其转换为映射)。