小编Par*_*ing的帖子

异常：在 GPU 上使用 torch.multiprocessing.spawn 时，进程 0 以退出代码 1 终止

每当我使用 torch.multiprocessing.spawn 在多个 GPU 上并行化时，包括并行和分布式训练教程中的代码示例，我都会收到错误。

\n
异常：进程 0 终止，退出代码为 1\n\xe2\x80\x8b
\n

有谁知道“以退出代码1终止”的含义（即进程终止的原因）？

Pytorch DDP 中的示例注释：

import torch\nimport torch.distributed as dist\nimport torch.multiprocessing as mp\nimport torch.nn as nn\nimport torch.optim as optim\nfrom torch.nn.parallel import DistributedDataParallel as DDP\n\n\ndef example(rank, world_size):\n    # create default process group\n    dist.init_process_group("gloo", rank=rank, world_size=world_size)\n    # create local model\n    model = nn.Linear(10, 10).to(rank)\n    # construct DDP model\n    ddp_model = DDP(model, device_ids=[rank])\n    # define loss function and optimizer\n    loss_fn = nn.MSELoss()\n    optimizer = optim.SGD(ddp_model.parameters(), lr=0.001)\n\n    # forward pass\n …

Run Code Online (Sandbox Code Playgroud)

python multiprocessing

Par*_*ing

2020 08-15

5
推荐指数

0
解决办法

3952
查看次数

标签统计

multiprocessing ×1

python ×1

异常：在 GPU 上使用 torch.multiprocessing.spawn 时，进程 0 以退出代码 1 终止

标签 统计

小编Par_ing的帖子

标签统计