维基百科说,Tesla M60 有 2x8 GB RAM(不管它意味着什么)和 TDP 225-300 W。
我使用了一个应该有 Tesla M60 的 EC2 实例 (g3s.xlarge)。但是nvidia-smi命令说它有 8GB 内存和最大功率限制 150W:
> sudo nvidia-smi
Tue Mar 12 00:13:10 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79 Driver Version: 410.79 CUDA Version: 10.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M60 On | 00000000:00:1E.0 Off | 0 |
| N/A 43C …Run Code Online (Sandbox Code Playgroud) 我正在尝试在 GKE 上运行机器学习作业,并且需要使用 GPU。
我使用 Tesla K80 创建了一个节点池,如本演练中所述。
我将最小节点大小设置为 0,并希望自动缩放器会根据我的工作自动确定我需要多少个节点:
gcloud container node-pools create [POOL_NAME] \
--accelerator type=nvidia-tesla-k80,count=1 --zone [COMPUTE_ZONE] \
--cluster [CLUSTER_NAME] --num-nodes 3 --min-nodes 0 --max-nodes 5 \
--enable-autoscaling
Run Code Online (Sandbox Code Playgroud)
最初,没有需要 GPU 的作业,因此集群自动缩放器正确地将节点池缩小到 0。
但是,当我使用以下规范创建作业时
resources:
requests:
nvidia.com/gpu: "1"
limits:
nvidia.com/gpu: "1"
Run Code Online (Sandbox Code Playgroud)
这是完整的作业配置。(请注意,此配置是部分自动生成的。我还删除了一些与问题无关的环境变量)。
在Insufficient nvidia.com/gpu我手动将节点池增加到至少 1 个节点之前,Pod一直处于挂起状态。
这是 GPU 节点池的当前限制,还是我忽略了什么?
graphics-processing-unit kubernetes google-kubernetes-engine nvidia
在使用 2 个 Tesla K80 卡配置系统后,我注意到在运行时nvidia-smi4 个 GPU 中的一个负载很重,尽管“没有找到正在运行的进程”。为什么会发生这种情况,我该如何纠正?
这是来自的输出nvidia-smi:
? compute-0-1: ~/> nvidia-smi
Mon Sep 26 14:48:00 2016
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 361.77 Driver Version: 361.77 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla K80 Off | 0000:05:00.0 Off | 0 |
| N/A 34C P0 57W / 149W | 0MiB / 11441MiB | 0% Default …Run Code Online (Sandbox Code Playgroud) 我正在开发一个可以监控虚拟机 vgpu 使用情况的项目。虚拟机管理程序是vCenter,我们在 vCenter 主机上安装了 nvidia A16 卡,并将 a16 vGPU 分配给该主机上的几个 Windows 虚拟机,这些 vGPU 分配给同一 GPU 芯片。
我尝试使用nvidia-smi命令来检索主机和虚拟机中的 vGPU 使用情况。在我使用的主机中nvidia-smi vgpu,以及在我使用的虚拟机中nvdia-smi。但事实证明,nvidia-smi 提供的指标始终与 VM 中 Windows 操作系统提供的指标不同。
例如,来自Windows任务管理器的使用率nvidia-smi可能低至6%,但Windows任务管理器的使用率始终在15%左右。
我们更愿意相信来宾操作系统提供的指标,因为它反映了用户案例的真实需求。
我的问题是,nvidia-smi指标的含义和来源是什么?为什么结果如此不同?我可以以某种方式修改结果以反映真实的客人需求吗?
感谢您的指点!
我们有一台 PowerEdge R7525 服务器,在 debian 11 上配备 nvidia A16 显卡。但我们的 GPU 性能比其他服务器低约 50%。我怀疑是 BIOS 中缺少“4G 以上解码”选项。根据 nvidia 的说法,该服务器应处理最多 3 个 A16 GPU 单元。任何人都可以建议我一些解决方法或利用该 GPU 的全部功能的方法吗?
预先非常感谢
我需要在 CentOS 6.9 上更新 NVidia 驱动程序并决定更新更多。所以我做了sudo yum update并重新启动。不幸的是,这导致 NVidia 出现比以前更严重的问题。我现在只能远程登录,并发现:
FATAL: Module nvidia not found.
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
Run Code Online (Sandbox Code Playgroud)
哦,我希望我没有更新!是否可以恢复最新的yum update?