在我的映射器中,我想调用安装在HDFS外部的工作节点上的外部软件.这可能吗?做这个的最好方式是什么?
我知道这可能会带走MapReduce的一些优点/可扩展性,但我想在HDFS中进行交互,并在我的映射器中调用已编译/安装的外部软件代码来处理一些数据.
我想使用存储在HDFS中的输入文件在hadoop之外运行一些可执行文件(但在同一个集群上).
这些文件是否需要本地复制到节点?或者有没有办法在hadoop之外访问HDFS?
关于如何做到这一点的任何其他建议都很好.不幸的是,我的可执行文件无法在hadoop中运行.
谢谢!
我想通过shell脚本绕过"你想继续(y/n,默认n)"提示.
我试过了:
python setup.py install --force
Run Code Online (Sandbox Code Playgroud)
和
python setup.py install
wait
y
Run Code Online (Sandbox Code Playgroud)
两个都不起作用......谁有其他想法?