jba*_*ney 5 python hadoop numpy pandas hadoop-streaming
我有一个 hadoop 集群,我正在使用 Numpy、SciPy 和 Pandas 对它进行数据分析。我希望能够使用命令的“--file”参数将我的 hadoop 作业作为 zip/tar 文件提交。该 zip 文件应该包含我的 python 程序需要执行的所有内容,这样无论我的脚本在集群中的哪个节点上执行,我都不会在运行时遇到 ImportError。
由于公司政策,在每个节点上安装这些库并不完全可行,尤其是对于探索性/敏捷开发。不过,我确实安装了 pip 和 virtualenv 来根据需要创建沙箱。
我看过zipimport和python 打包,但似乎都不能满足我的需求/我在使用这些工具时遇到了困难。
有没有人有幸做到这一点?我似乎无法在网上找到任何成功案例。
谢谢!
我通过创建需要安装 python 库和 Spark 从属脚本的 Docker 映像,解决了 Apache Spark 和 Python 上下文中的类似问题。镜像被分发到其他机器上,当容器启动时,它会自动加入到集群中,我们只有一台这样的镜像/主机。
我们不断变化的 python 项目与作业一起作为 zip 文件提交,并从那里透明地导入工作。幸运的是,我们很少需要重新创建这些从属映像,并且我们不会运行具有冲突要求的作业。
我不确定这在你的场景中有多适用,特别是因为(以我的理解)必须编译一些 python 库。
| 归档时间: |
|
| 查看次数: |
897 次 |
| 最近记录: |