hadoop，python，子进程失败，代码为127

Question

hadoop，python，子进程失败，代码为127

Hea*_*ter 5 python hadoop mapreduce cloudera hadoop-streaming

我正在尝试使用mapreduce运行非常简单的任务。

mapper.py：

#!/usr/bin/env python
import sys
for line in sys.stdin:
    print line

Run Code Online (Sandbox Code Playgroud)

我的txt文件：

qwerty
asdfgh
zxc

Run Code Online (Sandbox Code Playgroud)

命令行运行作业：

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper /home/cloudera/Documents/map.py \
-file /home/cloudera/Documents/map.py

Run Code Online (Sandbox Code Playgroud)

错误：

INFO mapreduce.Job: Task Id : attempt_1490617885665_0008_m_000001_0, Status : FAILED
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 127
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538)
    at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61)
    at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

Run Code Online (Sandbox Code Playgroud)

如何解决此问题并运行代码？当我使用cat /home/cloudera/Documents/test.txt | python /home/cloudera/Documents/map.py它工作正常

!!!!!更新

我的* .py文件出了点问题。我已经从github'tom white hadoop book'复制了文件，并且一切正常。

但我不明白是什么原因。它不是权限和字符集（如果我没记错的话）。还有什么呢？

Answer 1

小智 8

我遇到了同样的问题。

问题： 在Windows环境中创建python文件时，新行字符为CRLF。我的hadoop在Linux上运行，该Linux将换行符理解为LF

解决方案： 将CRLF更改为LF后，该步骤成功运行。

Answer 2

fi1*_*1er 1

在-mapper参数中，您应该设置命令，以便在集群节点上运行。所以那里没有 /home/cloudera/Documents/map.py 文件。使用-files选项传递的文件放置在工作目录中，因此您可以简单地以这种方式使用它：./map.py

我不记得为此文件设置了哪些权限，因此如果没有执行权限，请将其用作python map.py

所以完整的命令是

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper "python map.py" \
-file /home/cloudera/Documents/map.py

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，11 月前
查看次数：	3783 次
最近记录：	6 年，7 月前