标签: nvidia

---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-31-3b43ff4eea72> in <module>()
      5         labels = Variable(labels).cuda()
      6 
----> 7         optimizer.zero_grad()
      8         outputs = cnn(images)
      9         loss = criterion(outputs, labels)

/usr/local/lib/python3.5/dist-packages/torch/optim/optimizer.py in     zero_grad(self)
    114                 if p.grad is not None:
    115                     if p.grad.volatile:
--> 116                         p.grad.data.zero_()
    117                     else:
    118                         data = p.grad.data

RuntimeError: cuda runtime error (2) : out of memory at /pytorch  /torch/lib/THC/generic/THCTensorMath.cu:35`

Run Code Online (Sandbox Code Playgroud)

即使我的 GPU 是免费的

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.111                Driver Version: 384.111                       | …

Run Code Online (Sandbox Code Playgroud)

gpu nvidia deep-learning pytorch

Rya*_*an

2019 03-01

5
推荐指数

1
解决办法

8024
查看次数

无法通过请求 nvidia.com/gpu 来安排 kubernetes pod

我已经能够让 kubernetes 识别我的节点上的 GPU：

$ kubectl get node MY_NODE -o yaml
...
allocatable:
  cpu: "48"
  ephemeral-storage: "15098429006"
  hugepages-1Gi: "0" 
  hugepages-2Mi: "0"
   memory: 263756344Ki
  nvidia.com/gpu: "8"
  pods: "110"
capacity:
  cpu: "48"
  ephemeral-storage: 16382844Ki
  hugepages-1Gi: "0"
  hugepages-2Mi: "0"
  memory: 263858744Ki
  nvidia.com/gpu: "8"
  pods: "110"
...

Run Code Online (Sandbox Code Playgroud)

我旋转一个吊舱

Limits:
  cpu:             2
  memory:          2147483648
  nvidia.com/gpu:  1
Requests:
  cpu:             500m
  memory:          536870912
  nvidia.com/gpu:  1

Run Code Online (Sandbox Code Playgroud)

但是，pod 仍处于 PENDING 状态：

Insufficient nvidia.com/gpu.

Run Code Online (Sandbox Code Playgroud)

我正确指定了资源吗？

gpu nvidia kubernetes

yee*_*379

lucky-day

5
推荐指数

1
解决办法

3217
查看次数

在 nvidia docker 中使用 nvenc 运行 ffmpeg

我使用 nvidia-docker 在 docker 容器内安装了Nvidia Video Codec SDK 8.2 + ffmpeg但当我运行此命令时

ffmpeg -f rawvideo -s:v 1920x1080 -r 30 -pix_fmt yuv420p -i HeavyHand_1080p.yuv -c:v h264_nvenc -preset slow -cq 10 -bf 2 -g 150 output.mp4
Run Code Online (Sandbox Code Playgroud)
我收到这个错误

无法加载 libnvidia-encode.so.1

nvenc 所需的最低 Nvidia 驱动程序为 390.25 或更高版本初始化输出流 0:0 时出错 - 打开输出流 #0:0 的编码器时出错 - 可能参数不正确，例如比特率、速率、宽度或高度

否则nvidia-smi显示此信息

使用的GPU是GeForce 1050 Ti，cuda版本是9.0

ffmpeg nvidia docker nvenc nvidia-docker

Gof*_*med

lucky-day

5
推荐指数

2
解决办法

4815
查看次数

崩溃后继续训练 style-gan 2 网络

我一直在尝试使用自定义数据集训练 style-gan2 网络。不幸的是，我当前运行计算的服务器有点不稳定，导致它在训练三天后崩溃。有什么方法可以让我使用网络崩溃前的最后一个快照继续训练网络吗？我看到了一些关于继续训练网络的参考，但 style-gan 或 style-gan2 github 页面都没有提到它。

nvidia machine-learning generative-adversarial-network

Fro*_*ble

lucky-day

5
推荐指数

1
解决办法

2538
查看次数

无法升级 NVidia 软件包

我想将我的 Ubuntu 从 19.04 升级到 20.04，但在更新所有软件包之前这是不可能的。
\n\n
\xe2\x9d\xaf sudo do-release-upgrade\nChecking for a new Ubuntu release\nYour Ubuntu release is not supported anymore.\nFor upgrade information, please visit:\nhttp://www.ubuntu.com/releaseendoflife\n\nPlease install all available updates for your release before upgrading.\n
Run Code Online (Sandbox Code Playgroud)\n\n
所以，我正在尝试更新我的软件包：
\n\n
\xe2\x9d\xaf sudo apt update\nGet:1 file:/var/cuda-repo-10-0-local-10.0.130-410.48 InRelease\nIgn:1 file:/var/cuda-repo-10-0-local-10.0.130-410.48 InRelease\nGet:2 file:/var/cuda-repo-10-0-local-10.0.130-410.48 Release [574 B]\nGet:2 file:/var/cuda-repo-10-0-local-10.0.130-410.48 Release [574 B]\nHit:3 http://repo.yandex.ru/yandex-disk/deb stable InRelease \nHit:5 http://linux.teamviewer.com/deb stable InRelease \nHit:6 http://old-releases.ubuntu.com/ubuntu disco InRelease \nHit:7 http://ppa.launchpad.net/gophers/archive/ubuntu disco InRelease \nHit:8 http://old-releases.ubuntu.com/ubuntu disco-updates InRelease \nHit:9 http://dl.google.com/linux/chrome/deb stable InRelease \nHit:10 https://dl.yarnpkg.com/debian stable InRelease …
Run Code Online (Sandbox Code Playgroud)

ubuntu apt upgrade nvidia

voi*_*lex

lucky-day

5
推荐指数

1
解决办法

4951
查看次数

Pytorch 可以将张量移至 GPU，但 nvidia-smi 显示没有使用 GPU 内存

你好~我对这种情况很困惑。

首先，我的 tf 和 pytorch 都可以检测到我的 GPU（使用 torch.cuda,is_available()），但是我的模型几天前在 GPU 上运行得很好，今天只能在 cpu 上运行。似乎 pytorch 和 tf 跳过直接将模型传递给 GPU。

其次，我在 python 交互模式下进行了测试：

import torch x = torch.randn(10000,1000).cuda()
Run Code Online (Sandbox Code Playgroud)
这条线工作正常，当我输入时

x.device
Run Code Online (Sandbox Code Playgroud)
python 向我显示 x 位于 GPU 设备索引 0 上，但同时。nvidia-smi 中没有使用 GPU 内存

第三，当我监控我的 GPU 状态时

watch -n 1 nvidia-smi
Run Code Online (Sandbox Code Playgroud)
我发现我的 GPU 的温度或功率在很长一段时间内没有变化。

任何帮助将不胜感激！！

gpu nvidia tensorflow pytorch

Jer*_* Lu

lucky-day

5
推荐指数

0
解决办法

450
查看次数

标签统计

nvidia ×10

gpu ×4

cuda ×2

pytorch ×2

apt ×1

c ×1

c# ×1

caching ×1

clock ×1

deep-learning ×1

desktop ×1

docker ×1

egl ×1

ffmpeg ×1

generative-adversarial-network ×1

gpgpu ×1

kubernetes ×1

linux ×1

machine-learning ×1

nvenc ×1

nvidia-docker ×1

performance ×1

tensorflow ×1

ubuntu ×1

upgrade ×1

windows-7 ×1

标签 统计

标签统计