Nic*_*ord 8 python binary streaming hadoop mapreduce
我有一个管道,我目前在大型大学计算机集群上运行.出于发布目的,我想将其转换为mapreduce格式,以便任何人都可以使用像amazon webservices(AWS)这样的hadoop集群来运行它.该管道目前由一系列python脚本组成,这些脚本包含不同的二进制可执行文件,并使用python子进程和tempfile模块管理输入和输出.不幸的是,我没有写二进制可执行文件,其中许多不是采用STDIN或不以"可用"的方式发出STDOUT(例如,只将它发送到文件).这些问题就是为什么我把它们中的大部分包装在python中.
到目前为止,我已经能够修改我的Python代码,以便我有一个mapper和一个reducer,我可以在我的本地机器上以标准的"测试格式"运行.
$ cat data.txt | mapper.py | reducer.py
Run Code Online (Sandbox Code Playgroud)
映射器以它包装的二进制文件的方式格式化每一行数据,使用subprocess.popen将文本发送到二进制文件(这也允许我屏蔽很多虚假的STDOUT),然后收集我想要的STOUT,并格式化它到适合减速器的文本行.当我尝试在本地hadoop安装上复制命令时出现问题.我可以让mapper执行,但它会给出一个错误,表明它无法找到二进制可执行文件.
在main()文件"/Users/me/Desktop/hadoop-0.21.0/./mapper.py"中输入文件"/Users/me/Desktop/hadoop-0.21.0/./phyml.py",第69行,第66行,主要phyml(无)文件"/Users/me/Desktop/hadoop-0.21.0/./mapper.py",第46行,在phyml ft = Popen(cli_parts,stdin = PIPE,stderr = PIPE ,stdout = PIPE)文件"/Library/Frameworks/Python.framework/Versions/6.1/lib/python2.6/subprocess.py",第621行,在init errread,errwrite)文件"/Library/Frameworks/Python.framework /Versions/6.1/lib/python2.6/subprocess.py",第1126行,在_execute_child中引发child_exception OSError:[Errno 13]权限被拒绝
我的hadoop命令如下所示:
./bin/hadoop jar /Users/me/Desktop/hadoop-0.21.0/mapred/contrib/streaming/hadoop-0.21.0-streaming.jar \
-input /Users/me/Desktop/Code/AWS/temp/data.txt \
-output /Users/me/Desktop/aws_test \
-mapper mapper.py \
-reducer reducer.py \
-file /Users/me/Desktop/Code/AWS/temp/mapper.py \
-file /Users/me/Desktop/Code/AWS/temp/reducer.py \
-file /Users/me/Desktop/Code/AWS/temp/binary
Run Code Online (Sandbox Code Playgroud)
正如我上面提到的,它看起来像mapper不知道二进制文件 - 也许它没有被发送到计算节点?不幸的是我无法确定问题是什么.任何帮助将不胜感激.看到用python编写的包含二进制可执行文件的一些hadoop流映射器/缩减器会特别好看.我无法想象我是第一个尝试这样做的人!事实上,这是另一篇提出基本相同问题的帖子,但尚未得到答复......
经过多次谷歌搜索(等)后,我弄清楚了如何包含映射器/缩减器可以访问的可执行二进制文件/脚本/模块。诀窍是首先将所有文件上传到 hadoop。
$ bin/hadoop dfs -copyFromLocal /local/file/system/module.py module.py
Run Code Online (Sandbox Code Playgroud)
然后,您需要像以下模板一样格式化流命令:
$ ./bin/hadoop jar /local/file/system/hadoop-0.21.0/mapred/contrib/streaming/hadoop-0.21.0-streaming.jar \
-file /local/file/system/data/data.txt \
-file /local/file/system/mapper.py \
-file /local/file/system/reducer.py \
-cacheFile hdfs://localhost:9000/user/you/module.py#module.py \
-input data.txt \
-output output/ \
-mapper mapper.py \
-reducer reducer.py \
-verbose
Run Code Online (Sandbox Code Playgroud)
如果要链接 python 模块,则需要将以下代码添加到映射器/减速器脚本中:
import sys
sys.path.append('.')
import module
Run Code Online (Sandbox Code Playgroud)
如果您通过子处理访问二进制文件,您的命令应如下所示:
cli = "./binary %s" % (argument)
cli_parts = shlex.split(cli)
mp = Popen(cli_parts, stdin=PIPE, stderr=PIPE, stdout=PIPE)
mp.communicate()[0]
Run Code Online (Sandbox Code Playgroud)
希望这可以帮助。
| 归档时间: |
|
| 查看次数: |
3038 次 |
| 最近记录: |