小编Par*_*ing的帖子

异常:在 GPU 上使用 torch.multiprocessing.spawn 时,进程 0 以退出代码 1 终止

每当我使用 torch.multiprocessing.spawn 在多个 GPU 上并行化时,包括并行和分布式训练教程中的代码示例,我都会收到错误。

\n
\n

异常:进程 0 终止,退出代码为 1\n\xe2\x80\x8b

\n
\n

有谁知道“以退出代码1终止”的含义(即进程终止的原因)?

\n

Pytorch DDP 中的示例注释:

\n
import torch\nimport torch.distributed as dist\nimport torch.multiprocessing as mp\nimport torch.nn as nn\nimport torch.optim as optim\nfrom torch.nn.parallel import DistributedDataParallel as DDP\n\n\ndef example(rank, world_size):\n    # create default process group\n    dist.init_process_group("gloo", rank=rank, world_size=world_size)\n    # create local model\n    model = nn.Linear(10, 10).to(rank)\n    # construct DDP model\n    ddp_model = DDP(model, device_ids=[rank])\n    # define loss function and optimizer\n    loss_fn = nn.MSELoss()\n    optimizer = optim.SGD(ddp_model.parameters(), lr=0.001)\n\n    # forward pass\n …
Run Code Online (Sandbox Code Playgroud)

python multiprocessing

5
推荐指数
0
解决办法
3952
查看次数

标签 统计

multiprocessing ×1

python ×1