相关疑难解决方法(0)

如何将 Pytorch (+ cuda) 与 A100 GPU 结合使用？

我试图将当前代码与 A100 GPU 一起使用，但出现此错误：

---> backend='nccl'
/home/miranda9/miniconda3/envs/metalearningpy1.7.1c10.2/lib/python3.8/site-packages/torch/cuda/__init__.py:104: UserWarning: 
A100-SXM4-40GB with CUDA capability sm_80 is not compatible with the current PyTorch installation.
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_61 sm_70 sm_75 compute_37.
If you want to use the A100-SXM4-40GB GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/locally/

Run Code Online (Sandbox Code Playgroud)

这相当令人困惑，因为它指向通常的 pytorch 安装，但没有告诉我将 pytorch 版本 + cuda 版本的哪种组合用于我的特定硬件（A100）。为 A100 安装 pytorch 的正确方法是什么？

这些是我尝试过的一些版本：

# conda install -y pytorch==1.8.0 torchvision cudatoolkit=10.2 -c pytorch
# conda install -y pytorch torchvision cudatoolkit=10.2 …

Run Code Online (Sandbox Code Playgroud)

python machine-learning neural-network pytorch

Cha*_*ker

2022 05-13

45
推荐指数

2
解决办法

6万
查看次数

Pytorch“NCCL 错误”：未处理的系统错误，NCCL 版本 2.4.8”

我使用pytorch分布式训练我的模型。我有两个节点和每个节点两个gpu，我为一个节点运行代码：

python train_net.py  --config-file configs/InstanceSegmentation/pointrend_rcnn_R_50_FPN_1x_coco.yaml  --num-gpu 2  --num-machines 2 --machine-rank 0 --dist-url tcp://192.168.**.***:8000

Run Code Online (Sandbox Code Playgroud)

和另一个：

python train_net.py  --config-file configs/InstanceSegmentation/pointrend_rcnn_R_50_FPN_1x_coco.yaml  --num-gpu 2  --num-machines 2 --machine-rank 1 --dist-url tcp://192.168.**.***:8000

Run Code Online (Sandbox Code Playgroud)

但是另一个有 RuntimeError 问题

global_rank 3 machine_rank 1 num_gpus_per_machine 2 local_rank 1
global_rank 2 machine_rank 1 num_gpus_per_machine 2 local_rank 0
Traceback (most recent call last):
  File "train_net.py", line 109, in <module>
    args=(args,),
  File "/root/detectron2_repo/detectron2/engine/launch.py", line 49, in launch
    daemon=False,
  File "/root/anaconda3/envs/PointRend/lib/python3.6/site-packages/torch/multiprocessing/spawn.py", line 171, in spawn
    while not spawn_context.join():
  File "/root/anaconda3/envs/PointRend/lib/python3.6/site-packages/torch/multiprocessing/spawn.py", line 118, in join
    raise …

Run Code Online (Sandbox Code Playgroud)

python pytorch

ZFS*_*ZFS

2021 03-31

16
推荐指数

1
解决办法

5848
查看次数