Strange Jackson非法字符((CTRL-CHAR,代码0))Map Reduce Combiner中的异常

mle*_*mle 21 java json hadoop marshalling jackson

我有一个映射器的Map-Reduce作业,它接受一个记录并将其转换为一个对象,一个MyObject的实例,它使用Jackson编组为JSON.该值只是记录中的另一个Text字段.

映射器的相关部分如下所示:

ObjectMapper mapper = new ObjectMapper();
MyObject val = new MyObject();
val.setA(stringA);
val.setB(stringB);
Writer strWriter = new StringWriter();
mapper.writeValue(strWriter, val);
key.set(strWriter.toString());
Run Code Online (Sandbox Code Playgroud)

映射器的输出被发送到组合器,组合器解组JSON对象并聚合键值对.它在概念上非常简单,如下所示:

public void reduce(Text key, Iterable<IntWritable> values, Context cxt) 
    throws IOException, InterruptedException {
    int count = 0;
    TermIndex x = _mapper.readValue(key.toString(), MyObject.class);
    for (IntWritable int : values) ++count;
    ...
    emit (key, value)
}
Run Code Online (Sandbox Code Playgroud)

MyObject类由两个字段(两个字符串),get/set方法和一个默认构造函数组成.其中一个字段存储基于Web爬网的文本片段,但始终是字符串.

public class MyObject {
  private String A;
  private String B;

  public MyObject() {}

  public String getA() {
    return A;
  }
  public void setA(String A) {
    this.A = A;
  }
  public String getB() {
    return B;
  } 
  public void setIdx(String B) {
    this.B = B;
  }
}
Run Code Online (Sandbox Code Playgroud)

我的MapReduce作业似乎运行正常,直到它到达某些我无法轻松访问的记录(因为映射器正在从爬网生成记录),并且抛出以下异常:

Error: com.fasterxml.jackson.core.JsonParseException: 

    Illegal character ((CTRL-CHAR, code 0)): only regular white space (\r, \n, \t) is allowed between tokens
     at [Source: java.io.StringReader@5ae2bee7; line: 1, column: 3]
Run Code Online (Sandbox Code Playgroud)

有人会对此事有任何建议吗?

Abd*_*man 2

  • 您可以使用StringUtilsApache Commons 库来转义字符串。
  • 或者,您可以在 JSON 封送之前有选择地替换字符串中的控制字符。

您也可以参考这篇文章: 非法字符 - CTRL-CHAR