维基百科说,Tesla M60 有 2x8 GB RAM(不管它意味着什么)和 TDP 225-300 W。
我使用了一个应该有 Tesla M60 的 EC2 实例 (g3s.xlarge)。但是nvidia-smi命令说它有 8GB 内存和最大功率限制 150W:
> sudo nvidia-smi
Tue Mar 12 00:13:10 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79 Driver Version: 410.79 CUDA Version: 10.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M60 On | 00000000:00:1E.0 Off | 0 |
| N/A 43C …Run Code Online (Sandbox Code Playgroud) 我们使用了大量的 GPGPU 计算(主要使用 CUDA,但也使用一些 OpenCL)。通常,当用户运行代码时,代码仅在我们的一台主机上出现内存错误。我怀疑其中一张卡有问题。有时它会导致整个系统瘫痪,有时程序会崩溃。
全面测试 GPU 是否可能出现故障的最简单、最快和最彻底的方法是什么?
我知道有些程序是 nvidia 的 CUDA SDK 的一部分:
deviceQuery
nvidia-smi
Run Code Online (Sandbox Code Playgroud)
但我需要更彻底的东西。建议?经验?
我正在尝试在 GKE 上运行机器学习作业,并且需要使用 GPU。
我使用 Tesla K80 创建了一个节点池,如本演练中所述。
我将最小节点大小设置为 0,并希望自动缩放器会根据我的工作自动确定我需要多少个节点:
gcloud container node-pools create [POOL_NAME] \
--accelerator type=nvidia-tesla-k80,count=1 --zone [COMPUTE_ZONE] \
--cluster [CLUSTER_NAME] --num-nodes 3 --min-nodes 0 --max-nodes 5 \
--enable-autoscaling
Run Code Online (Sandbox Code Playgroud)
最初,没有需要 GPU 的作业,因此集群自动缩放器正确地将节点池缩小到 0。
但是,当我使用以下规范创建作业时
resources:
requests:
nvidia.com/gpu: "1"
limits:
nvidia.com/gpu: "1"
Run Code Online (Sandbox Code Playgroud)
这是完整的作业配置。(请注意,此配置是部分自动生成的。我还删除了一些与问题无关的环境变量)。
在Insufficient nvidia.com/gpu我手动将节点池增加到至少 1 个节点之前,Pod一直处于挂起状态。
这是 GPU 节点池的当前限制,还是我忽略了什么?
graphics-processing-unit kubernetes google-kubernetes-engine nvidia
不确定这是否是超级用户的问题...我是从管理员的角度接近的。
我的一个用户在运行金融交易应用程序的 HP z800 工作站上。该系统包含两个 nVidia 适配器,为 3 x 2 网格中的六个 24" 显示器供电。操作系统是 Vista Business 64 位 SP1,具有 24GB RAM 和 X5570 CPU。这是一个大系统。
我们对工作站的问题之一是 Windows Vista 操作系统更新(现在通过 WSUS 提供,但以前被禁用)导致 NVIDIA 显示器丢失其位置。代替:
[ 1 ] [ 2 ] [ 3 ]
[ 4 ] [ 5 ] [ 6 ]
Run Code Online (Sandbox Code Playgroud)
我得到:
[ 1 ] [ 4 ] [ 3 ]
[ 5 ] [ 2 ] [ 6 ]
Run Code Online (Sandbox Code Playgroud)
或者:
[ 1 ] [ x ] [ 3 ]
[ 2 …Run Code Online (Sandbox Code Playgroud) 我正在研究启用了 RemoteFX 的 Windows Server 2008 SP1,但是我不想购买其中一张 NVIDIA Quadro 1000 美元以上的显卡来完成它(因为只有少数用户会使用虚拟机)。我想使用其中一张 Geforce 卡(我在看 560 Ti 或 570)。
我听说有人修改了 Geforce 卡的 INF 驱动程序文件,以使它们能够与 RemoteFX 一起使用,但我找不到任何关于此的信息。在去买一张卡进行测试之前,我想先看看一些证据。
任何帮助将不胜感激。
我设法能够将 PCIe GPU (AMD RX580) 传递到 Windows Server 2016 标准主机上的 Windows 10 客户机。
问题是,每当使用 GPU 时,都会出现此错误:
驱动程序是通过 Windows 更新安装的
PCIe 直通是使用 Powershell(管理员)完成的:
Set-VM -Name "Parsec" -AutomaticStopAction TurnOffDismount-VmHostAssignableDevice -LocationPath
"PCIROOT(0)#PCI(0301)#PCI(0000)" -forceAdd-VMAssignableDevice -LocationPath
"PCIROOT(0)#PCI(0301)#PCI(0000)" -VMName "Parsec"Set-VM "Parsec" -GuestControlledCacheTypes $True
-LowMemoryMappedIoSpace 2000MB -HighMemoryMappedIoSpace 8000MB这里可能缺少什么?