标签: nvidia

AWS 使用的实际 Tesla M60 型号有哪些？

维基百科说，Tesla M60 有 2x8 GB RAM（不管它意味着什么）和 TDP 225-300 W。

我使用了一个应该有 Tesla M60 的 EC2 实例 (g3s.xlarge)。但是nvidia-smi命令说它有 8GB 内存和最大功率限制 150W：

> sudo nvidia-smi
Tue Mar 12 00:13:10 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M60           On   | 00000000:00:1E.0 Off |                    0 |
| N/A   43C …

Run Code Online (Sandbox Code Playgroud)

amazon-web-services graphics-processing-unit nvidia

han*_*ans

2019 03-12

14
推荐指数

1
解决办法

2728
查看次数

Google Kubernetes Engine 节点池不会从 0 个节点自动扩展

我正在尝试在 GKE 上运行机器学习作业，并且需要使用 GPU。

我使用 Tesla K80 创建了一个节点池，如本演练中所述。

我将最小节点大小设置为 0，并希望自动缩放器会根据我的工作自动确定我需要多少个节点：

gcloud container node-pools create [POOL_NAME] \
--accelerator type=nvidia-tesla-k80,count=1 --zone [COMPUTE_ZONE] \
--cluster [CLUSTER_NAME] --num-nodes 3 --min-nodes 0 --max-nodes 5 \
--enable-autoscaling

Run Code Online (Sandbox Code Playgroud)

最初，没有需要 GPU 的作业，因此集群自动缩放器正确地将节点池缩小到 0。

但是，当我使用以下规范创建作业时

resources:
  requests:
    nvidia.com/gpu: "1"
  limits:
    nvidia.com/gpu: "1"

Run Code Online (Sandbox Code Playgroud)

这是完整的作业配置。（请注意，此配置是部分自动生成的。我还删除了一些与问题无关的环境变量）。

在Insufficient nvidia.com/gpu我手动将节点池增加到至少 1 个节点之前，Pod一直处于挂起状态。

这是 GPU 节点池的当前限制，还是我忽略了什么？

graphics-processing-unit kubernetes google-kubernetes-engine nvidia

not*_*ami

2019 04-11

7
推荐指数

1
解决办法

3325
查看次数

当“未找到正在运行的进程”时，为什么我的 CUDA GPU-Util 约为 70%？

在使用 2 个 Tesla K80 卡配置系统后，我注意到在运行时nvidia-smi4 个 GPU 中的一个负载很重，尽管“没有找到正在运行的进程”。为什么会发生这种情况，我该如何纠正？

这是来自的输出nvidia-smi：

?  compute-0-1: ~/> nvidia-smi
Mon Sep 26 14:48:00 2016       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 361.77                 Driver Version: 361.77                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 0000:05:00.0     Off |                    0 |
| N/A   34C    P0    57W / 149W |      0MiB / 11441MiB |      0%      Default …

Run Code Online (Sandbox Code Playgroud)

cuda nvidia

Ste*_*ell

lucky-day

5
推荐指数

1
解决办法

7338
查看次数

nvidia-smi 命令提供的 GPU 使用情况与来宾操作系统的 GPU 指标有很大不同

我正在开发一个可以监控虚拟机 vgpu 使用情况的项目。虚拟机管理程序是vCenter，我们在 vCenter 主机上安装了 nvidia A16 卡，并将 a16 vGPU 分配给该主机上的几个 Windows 虚拟机，这些 vGPU 分配给同一 GPU 芯片。

我尝试使用nvidia-smi命令来检索主机和虚拟机中的 vGPU 使用情况。在我使用的主机中nvidia-smi vgpu，以及在我使用的虚拟机中nvdia-smi。但事实证明，nvidia-smi 提供的指标始终与 VM 中 Windows 操作系统提供的指标不同。

例如，来自Windows任务管理器的使用率nvidia-smi可能低至6%，但Windows任务管理器的使用率始终在15%左右。

我们更愿意相信来宾操作系统提供的指标，因为它反映了用户案例的真实需求。

我的问题是，nvidia-smi指标的含义和来源是什么？为什么结果如此不同？我可以以某种方式修改结果以反映真实的客人需求吗？

感谢您的指点！

virtualization task-manager vmware-vcenter nvidia gpu

zb2*_*939

2023 09-02

5
推荐指数

1
解决办法

189
查看次数

戴尔 PowerEdge R7525 + Nvidia A16

我们有一台 PowerEdge R7525 服务器，在 debian 11 上配备 nvidia A16 显卡。但我们的 GPU 性能比其他服务器低约 50%。我怀疑是 BIOS 中缺少“4G 以上解码”选项。根据 nvidia 的说法，该服务器应处理最多 3 个 A16 GPU 单元。任何人都可以建议我一些解决方法或利用该 GPU 的全部功能的方法吗？

预先非常感谢

debian dell dell-poweredge nvidia

Aot*_*tor

lucky-day

3
推荐指数

1
解决办法

432
查看次数

恢复 yum 更新

我需要在 CentOS 6.9 上更新 NVidia 驱动程序并决定更新更多。所以我做了sudo yum update并重新启动。不幸的是，这导致 NVidia 出现比以前更严重的问题。我现在只能远程登录，并发现：

FATAL: Module nvidia not found.
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Run Code Online (Sandbox Code Playgroud)

哦，我希望我没有更新！是否可以恢复最新的yum update？

centos yum nvidia

Mic*_*ael

lucky-day

0
推荐指数

1
解决办法

412
查看次数