Ope*_*way 10 linux hpc shared-libraries cluster-computing static-libraries
我们致力于科学计算,并定期向不同的计算集群提交计算.为此我们使用linux shell连接并通过SGE,Slurm等提交作业(它取决于集群).我们的代码由python和bash脚本以及几个二进制文件组成.其中一些依赖于外部库,如matplotlib.当我们开始使用新的集群时,这是一场噩梦,因为我们需要告诉管理员我们需要的所有库,有时他们无法安装所有这些库,或者他们只有旧版本无法升级.所以我们想知道我们能在这做什么.我想知道我们是否可以以某种方式"打包"我们需要的所有库以及我们的代码.你认为有可能吗?否则,我们如何在不需要管理员安装任何东西的情况下迁移到新集群?
关键是使用集群管理员安装的编译器/库/ MPI工具链自己编译所需的所有代码,以便
在这种情况下,以下内容非常有用:
更具体地说,对于Python,您可以使用
在所有集群中进行一致的Python安装.
不要误会我的意思,但我认为你必须这样做:停止表现得像业余爱好者.
含义:"系统配置"的完整性是您"业务" 的核心资产之一.而您刚刚告诉我们您基本上无法轻松重新生成系统配置.
所以,这里真正的答案不能是使用这种或那种技术的建议.真正的答案是:您和参与运营运营的其他团队需要聚集在一起,并定义一个如何解决这个问题的严肃策略.
也许你决定要走的路是你的开发团队提供Docker构建文件,这样你的运营团队就可以轻松地在新机器上创建图像.或者您决定需要使用诸如ansible之类的东西来集中控制整个环境.