我对 Hadoop 非常陌生,并试图使用它运行一个简单的程序。
我已将本地示例数据复制到 hdfs,但在我的 map reduce 作业期间,当我按照官方 apache 文档运行此命令时
hadoop jar hadoop-streaming-2.7.3.jar \
-input /user/hduser/gutenberg/* \
-output /user/hduser/gutenberg-output \
-mapper /home/hduser/mapper.py \
-reducer /home/hduser/reducer.py
Run Code Online (Sandbox Code Playgroud)
我收到此错误
不是有效的 JAR:/usr/lib/hadoop-streaming-2.7.3.jar
请试着帮助我。
小智 5
它适用于 Hadoop 2.7.3
这是您需要运行的命令
[Linux]$ hadoop jar \
/usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar \
-file /home/python/mapper.py /home/python/reducer.py \
-mapper "python mapper.py" \
-reducer "python reducer1.py" \
-input /tmp/word_i \
-output /tmp/word_output
Run Code Online (Sandbox Code Playgroud)