相关疑难解决方法(0)

在分布式计算中,世界大小和排名是什么?

我一直在阅读一些文档示例代码,最终目标是为分布式计算(运行 PyTorch)编写脚本,但这些概念让我感到困惑。

假设我们有一个带有 4 个 GPU 的节点,并且我们希望在这 4 个 GPU 上运行我们的脚本(即每个 GPU 一个进程)。在这种情况下,排名世界大小和排名是多少?我经常找到对世界大小的解释:工作中涉及的进程总数,所以我假设在我们的例子中是四个,但是排名呢?

为了进一步解释,另一个具有多个节点和多个 GPU 的示例也很有用。

python distributed-computing python-3.x pytorch

11
推荐指数
2
解决办法
4145
查看次数