ale*_*ton 8 hadoop control-characters separator
我正在尝试使用^ A作为我的reduce输出文件中Key和Value之间的分隔符.我发现配置设置"mapred.textoutputformat.separator"是我想要的,这正确地将分隔符切换为",":
conf.set("mapred.textoutputformat.separator", ",");
Run Code Online (Sandbox Code Playgroud)
但它无法处理^ A字符:
conf.set("mapred.textoutputformat.separator", "\u0001");
Run Code Online (Sandbox Code Playgroud)
抛出此错误:
ERROR security.UserGroupInformation: PriviledgedActionException as:user (auth:SIMPLE) cause:org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.lang.RuntimeException: org.xml.sax.SAXParseException; lineNumber: 68; columnNumber: 94; Character reference "&#
我找到了这张票https://issues.apache.org/jira/browse/HADOOP-7542并看到他们试图修复此问题,但由于XML1.1问题而恢复了补丁.
所以我想知道是否有人成功地将分隔符设置为^ A(看起来很常见),使用简单的解决方法.或者,如果我应该解决并使用标签分隔符.
谢谢!
我在CentOS 6.2上运行Hadoop 0.20.2-cdh3u5
环顾四周,我发现可能有三个选项可以解决这个问题:
\n\n上面链接中详细介绍了可能的解决方案:
\n\n| 归档时间: |
|
| 查看次数: |
4137 次 |
| 最近记录: |